Curiosidades • Destacados

Las arañas que tejen internet: Crawler y Crawl Budget

13 abril, 2022

11 min. desde la última lectura

freestocks.org

Cristian Sarabia Martínez

Escribir comentario

¿Qué es un rastreador web y porqué es tan importante?

Hubo una época (y no hace mucho de ello), en la que se creaban redes para comunicar diferentes instituciones. Redes como la que unió las universidades de Stanford y UCLA en 1989 y que recibió el nombre de Arpanet.

Estas redes tenían una diferencia sustancial con respecto a las de hoy día: Todavía no habían integrado la tecnología vital que convertiría a esas redes en Internet. Una tecnología llamada hipertexto, que no era otra cosa que la incorporación a esas protopáginas de hipervínculos (links).

La posibilidad de enlazar unos contenidos con otros, pudiendo así organizar la información de manera que fuese accesible, no sólo permitió dar el paso de Arpanet a Internet, sino que en 1998, nació una empresa que comenzó a analizar y organizar realmente bien esos enlaces, haciendo accesible gran parte del contenido existente en la red. Hoy, 20 años después, esa compañía es la 2da más grande del mundo: Google (Alphabet).

Estos dos hechos históricos entorno a la importancia de los hipervínculos, nos sirven para introducir el tema de hoy: ¿Cómo es posible que no sólo aparezca mi web en los buscadores, sino que cualquier modificación que realice aparecerá reflejada en muy poco tiempo?

¿Tienes prisa?

Siento deciros que la respuesta a la pregunta de la introducción no es “Tienen un ejército de Umpa Lumpas”, pero casi.

Su ejército es de bots, es decir, pequeñas rutinas de código que funcionan de manera autónoma y cuyo objetivo es rastrear los hipervínculos que hay dentro de cada web para almacenar su contenido. Así, posteriormente, serán capaces de parsear ese contenido extrayendo la información que les interese (precios, artículos nuevos, horarios…).

Estos pequeños bots rastreadores se conocen bajo muchos nombres: Recolectores (de páginas webs), rastreadores, indexadores web, hormigas (ant), Web scutters… pero quizá, los dos nombres más populares son Crawlers y arañas web (Spiders).

¿Por qué? Porque gracias a su función de rastreo e indexación, lo que hacen en realidad es tejer una red de interconexiones que permiten mantener unidas millones de páginas webs, y por ende, su contenido.

Por eso insistimos tanto en la importancia del Internal Linking para el SEO on Page: Si no tienes enlaces a un artículo dentro de tu web, los crawlers no serán capaces de llegar a él, y por lo tanto no aparecerá nunca en Google.
Si quieres saber cómo funcionan exactamente estas arañas y cómo usarlas en tu beneficio para posicionarte mejor, ¡te invitamos a seguir leyendo el artículo!

Resumen de contenidos

¿Cómo funciona un crawler?
Limitaciones y problemas en el rastreo
Crawl Budget ¿Qué puedo hacer para usarlos en mi beneficio?
Black SEO: Qué no hacer bajo ningún concepto
Google bot: El Crawler que lo cambió todo

¿Cómo funciona un crawler?

Resultado de imagen de link tree Todo comienza con una lista de URLs iniciales llamadas semillas. El bot las visita y, siguiendo una serie de reglas previas que le sirven de indicaciones, analiza esas páginas y descarga su código HTML almacenándolo en una base de datos.

A continuación busca otros enlaces que puedan figurar en el contenido de esa web y los visita repitiendo la tarea.

Como podéis imaginar, este trabajo puede ser infinito, ya que de cada página saldrán decenas de enlaces internos y externos, y de cada una de ellas otras decenas. La estructura de enlaces de una web es una estructura de árbol: De cada rama salen otras ramas y de éstas a su vez otras más.

Dado que los recursos de un sistema siempre son finitos, serán las directrices iniciales las que marquen hasta qué punto o en qué momento un crawler ha de abandonar su misión. La lista de enlaces que haya conseguido hasta ese momento, se llamará frontera de rastreo.

Cuando finalice la tarea de rastrear y almacenar, todo ese código será parseado es decir, un algoritmo analizará el contenido siendo capaz de extraer la información que le interesa. Como decíamos, habitualmente son precios, horarios, artículos…

Con toda esa información se crea un índice accesible (se indexa) para que cuando el usuario realice una consulta, el sistema le muestre la información relacionada y sepa de dónde la extrajo.

Finalmente, cada cierto tiempo los crawlers volverán a pasar por las mismas URLs verificando que todo sigue en línea, si hay contenido nuevo, correcciones… Precisamente por ello nosotros podemos “enseñar a los buscadores” nuestra frecuencia de actualización y “concertar una cita” con ellos.

Limitaciones y problemas en el rastreo

URLs de lado de servidor

Con el desarrollo de ciertos lenguajes de programación y de determinadas prácticas SEO como la reescritura de urls amigables o el redimensionamiento de imágenes, los crawlers se encuentran ante la problemática de tener cientos de direcciones repetidas, y miles de urls inservibles.

Pongamos un ejemplo: Si en una determinada página yo inserto una galería de imágenes, el software que la genere seguramente desarrollará un sistema de urls internas asociadas a determinados anchor links. Ésto hará que la galería de imágenes muestre una versión en miniatura (thumbnail), al hacer click sobre la imagen una versión ampliada, y al usar los botones laterales se genere un “pase de diapositivas”. Si además de ello puedo ordenar las imágenes según ciertos criterios, por cada imagen estoy generando 4, 5 o 5 enlaces. Todo ello son urls que, en principio, no contienen información de interés y hacen perder tiempo y recursos al servidor.

Podríamos poner otros muchos ejemplos, como urls con parámetros GET, redirecciones, versiones móviles y de escritorio con urls diferentes, etc

Por ello la programación de un crawler debe ser optimizada con sumo cuidado o podría perder mucho tiempo duplicando o triplicando información no relevante.

Tecnologías difícilmente rastreables

El recientemenre fenecido formato Flash o incluso Ajax, entre otros, supusieron retos de lectura para los crawlers en su día. En el primer caso, todo el contenido estaba en frames de películas en lugar de en HTML, y en el segundo caso, las llamadas recursivas al servidor desde el lado del cliente, alteraban dinámicamente el contenido de una web.

Con ello queremos decir que los bots leen código, y si nuestro código no cumple ciertos estándares podemos vernos seriamente perjudicados a la hora de posicionarnos en los buscadores.

Mi cuarto está desordenado: La opacidad en la Deep Web

¿Pero a mi nadie me pregunta si quiero que un spider analice mi web? Como hemos comentado, con que una url de tu página web esté referenciada en otra web que ese buscador sí tenga indexada, el crawler acabará llegando a ti.

Es como una madeja de hilo, sólo tiene que tirar de él hasta llegar al otro lado, y tarde o temprano llegará, a no ser que lo evites a conciencia.

¿Y por qué no iba a querer que mi web apareciese en Google? ¿No es ese el sueño que todos perseguimos? Es posible que tu web esté online pero sin acabar, que el contenido esté pensado únicamente para tus amigos y para ti, que sea un diario personal que nadie más debe leer, una página de pruebas, etc

Tal vez halláis oído hablar de Internet Profundo o Deep Web, y de cómo ésta web oculta no se muestra en los buscadores. Ellos, sí tienen motivos para ocultarse ya que con frecuencia en esas páginas se venden artículos prohibidos o se realizan actividades delictivas.

¿Y cómo consiguen no ser indexados? En realidad hay muchos métodos, basta con hacer todo lo contrario de lo que dicta el buen SEO:

No des la url de tu página a través de internet. Si quieres pasarla que sea a través de plataformas privadas como chats, Whatsapp… Puedes incluso cifrar la url y/o hacer que sea terriblemente difícil de memorizar. Ejemplo: http://85.157.21.92/j39nf98ew7f3iousdf/dsfdsf833/
Añadir parámetros a la url para acceder a la web: Los buscadores tienen serias dificultades para rastrear las urls con “?” y otros parámetros. Así que podríamos configurar el .htaccess para que la web funcionase con http://miweb.com?index=accede pero no con http://miweb.com
Poner usuario y contraseña para acceder al contenido.
No tener sitemap.xml y configurar robots.txt como “noindex“.
Si es estrictamente necesario poner un enlace externo, que sea “nofollow“.
Dado que los crawlers únicamente leen lenguaje HTML, puedes crear la web en un lenguaje difícilmente indexable.

Crawl Budget ¿Qué puedo hacer para usarlos en mi beneficio?

Como los recursos de un servidor son limitados (Sí, incluso los de Google), cada crawler pasa un tiempo determinado en una página web. A ese tiempo se le llama Crawl Budget.

A raíz de ello se ha popularizado la frase: “Si intentas posicionarlo todo, acabarás no posicionando nada“. O lo que adaptado al refranario español viene a ser “Quien mucho abarca, poco aprieta“.

Y es que si nuestra web es muy extensa y no dejo claro qué es lo más importante que deseo que aparezca en Google, puede que acabe no apareciendo.

¿Y cómo se lo dejo claro? Hay quienes recomiendan que las páginas poco relevantes estén especificadas en el robots.txt como no index, pero lo realmente importante es una buena política de Internal Linking. Te recomendamos leer nuestro artículo: Estrategias mitos y malas prácticas.

Por otro lado, actualizar siempre siguiendo unos criterios de horario, frecuencia, etc facilita mucho que los bots aprendan cuándo entrar e incluso incrementen el Crawl Budget que te asignan.

Si te interesa el tema te recomendamos los siguientes artículos:

¡A navegar grumetes!: Rastreo e indexación, primer contacto con Google
¿Cómo concertar una cita con los bots de Google?

Black SEO: Qué no hacer bajo ningún concepto

Ahora que te ha quedado claro que los crawlers leen una web de manera muy distinta a como lo hace un ser humano, quizá se te haya ocurrido que puedes poner campos ocultos plagados de palabras clave para posicionarte, o incluso servir directamente una web específica para usuarios, y cuando detectes un crawler servirle una versión optimizada para bots.

A éstas prácticas se las conoce respectivamente como Keyword Stuffing y Cloaking, y son dos técnicas de Black SEO muy penalizadas por los buscadores. Así que mejor evitarlas…

Google bot: El Crawler que lo cambió todo

Con frecuencia la gente nos pregunta qué había antes de Google, y la respuesta parece sorprenderles: “Otros Googles”. Por supuesto, no se llamaban así. Tenían nombres tan diversos como Lycos, MSN, Ozú… O los todopoderosos Altavista y Yahoo.

Lo que ocurre es que en los 90, los buscadores eran más como “portales web”, donde además del servicio de búsqueda había interminables directorios de enlaces. La filosofía parecía inteligente: “¿Cómo vas a encontrar algo que no sabes cómo se llama?” Así que lo que hacían era ofrecerte un directorio tipo Páginas Amarillas.

¿Buscas un coche? He aquí cientos de páginas categorizadas en: Venta de coches nuevos, kilómetro cero, usados… talleres de reparación, piezas de coches, desguaces…. matriculación, ITV… accesorios, gasolineras…

Como podrás imaginar navegar por esos directorios podía ser interminable pero… Si tenían un buscador, ¿por qué no usarlo? Ahora preguntamos nosotros, ¿habéis usado alguna vez algún buscador que no sea Google o Bing? Pues he ahí la respuesta.

Los resultados eran bastante pobres, no ofrecían resultados basados en sinónimos y las búsquedas se centraban en palabras clave, de manera que si queríamos buscar un horario de trenes no había más remedio que buscar: “horario tren madrid alicante“.

Con la aparición de Ask Jeeves ésto comenzó a cambiar, y cada vez las búsquedas realizadas con lenguaje natural eran más correctas pero… Llegó Google y su “Voy a Tener Suerte”, y todo cambió.

Google y su algoritmo

Google era muchísimo más rápido que sus competidores, más preciso y manejaba como nadie el lenguaje natural. Era, e incluso hoy sigue siéndolo, más cómodo preguntar a Google que levantarse a buscar cualquier cosa, incluso aunque fuese una nota personal que hubieses tomado sobre el nombre de algún local o un evento.

El buscador adecuaba sus resultados a ti, personalizándolos según tu ubicación, búsquedas previas o pautas de comportamiento.

Google tenía tan claro que era el mejor que su web siempre fue, y hoy día sigue siéndolo, una sencilla caja de búsqueda. ¿Para qué más?

Resultado de imagen de google en los 90

Hoy en día sabemos que su algoritmo se basaba en el PageRank, una puntuación que otorgaba a cada página utilizando más de 40 criterios diferentes.

Con cada consulta buscaba en su índice la mejor concordancia posible y ordenaba los resultados según esa puntuación, que a su vez venía determinada por la popularidad entre los usuarios (tasa de rebote, nº de enlaces entrantes, volumen de visitas…). De esa manera se “aseguraba” de que lo que mostraba era de calidad.

¿Y tú, recuerdas cómo eran los buscadores de los 90? ¿Cuál utilizabas?

No olvides que también queremos que compartas con nosotros tus experiencias y primeros pinitos con los rastreadores web.

Sobre el autor

Ver todos sus artículos

Cristian Sarabia Martínez

Desde que a principios de los 90 mi padre desempolvó su Spectrum, no he dejado de probar y experimentar con la tecnología.

Enamorado del mundo web, Full Stack Developer de profesión y diseñador por devoción.

Ahora hago mis pinitos en esto del blogging para compartir con vosotros un poquito de todo lo que la comunidad me ha dado.

Escribir comentario

Haz clic aquí para dejar tu comentario

Cancelar Respuesta

¿Con qué frecuencia debo publicar en mi blog? ¿Por qué?

¿Puedo registrar un dominio con Ñ o tildes? IDN

septiembre 2025
L	M	X	J	V	S	D
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

How Adding Slack Bot Boosted Our Culture of Appreciation 3 julio, 2024
Sweet Kudos is a Slack bot that enhances employee recognition, rewards, and celebrations within your team. It empowers team members to express gratitude and appreciation effortlessly by giving virtual Kudos. The post How Adding Slack Bot Boosted Our Culture of Appreciation appeared first on Meks.
Dusan Milovanovic
10 Best Knowledge Base & Wiki WordPress Themes 2021 15 septiembre, 2021
Running a successful online business requires an exceptional WordPress knowledge base theme that organizes documentation and helps customers. Customization options, intuitive navigation, unique layouts, and fast responsiveness are just some of the features you need. The following 10 WordPress wiki themes represent the best options for 2021 and beyond. Explore the full range to determine […]
Dusan Milovanovic
How to increase WordPress Memory Limit (quick fixes) 16 junio, 2021
Here is a post about how to increase the memory limit in WordPress. Allowed memory size exhausted error message showed up in your WordPress installation? No worries – this is one of the most common errors in WordPress. You can apply an easy fix by increasing the memory limit in your PHP. Table of Contents […]
Dusan Milovanovic
How to use (and why) WordPress sitemap plugin 1 marzo, 2021
Did you know that by knowing how to use the WordPress sitemap plugin you can significantly improve your site’s visibility and traffic? Although it isn’t mandatory to have a sitemap on your site, having one significantly improves the site’s quality, crawlability and indexing. All this is important for better optimization, which is why we wanted […]
Ivana Cirkovic
22 free and premium podcast software for your show [2021 edition] 18 enero, 2021
You’re determined to start or improve your podcast but don’t know which podcast software to use to really make it stand out? We’ve got you! #podcasting Top 22 free and premium podcast software for your show #WordPressTips #podcasting The post 22 free and premium podcast software for your show [2021 edition] appeared first on Meks.
Ivana Cirkovic
Digital storytelling with WordPress – an all-in-one guide to make your web stories pop! 23 noviembre, 2020
Wondering how to improve digital storytelling with WordPress and build more awareness and exposure of your business? Let our guide lead the way. The post Digital storytelling with WordPress – an all-in-one guide to make your web stories pop! appeared first on Meks.
Ivana Cirkovic
How to use WordPress autoposting plugin to improve your visibility and SEO? 10 septiembre, 2020
Did you know you can use the WordPress autoposting plugin for your content efforts and improve not only your time management but your business and visibility as well? The post How to use WordPress autoposting plugin to improve your visibility and SEO? appeared first on Meks.
Ivana Cirkovic
How to create a personal branding site? Step-by-step DIY guide 15 agosto, 2020
Looking for ways and means to create a personal branding site? Well, look no further ’cause we’re giving away all the how-to’s to do it yourselves! The post How to create a personal branding site? Step-by-step DIY guide appeared first on Meks.
Ivana Cirkovic
Top 15 WordPress content plugins and tools to improve your visibility and rankings 16 julio, 2020
Let’s take a look at some of the must-have WordPress content plugins and tools to use to improve both your UX and rankings. The post Top 15 WordPress content plugins and tools to improve your visibility and rankings appeared first on Meks.
Ivana Cirkovic
WCEU 2020 recap – key takeaways from the biggest online WordPress conference 9 junio, 2020
Missed WCEU 2020 and all the exciting stuff from there? Here are all the key takeaways and main points to remember so, take notes! The post WCEU 2020 recap – key takeaways from the biggest online WordPress conference appeared first on Meks.
Ivana Cirkovic

Las arañas que tejen internet: Crawler y Crawl Budget

¿Qué es un rastreador web y porqué es tan importante?

Resumen de contenidos

¿Cómo funciona un crawler?