A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

Qué es Crawler

Crawler

Significado:

Un crawler o rastreador web, también conocido como spider, es un bot que ayuda en la indexación de la web. Exploran una página a la vez a través de un sitio web hasta que todas las páginas se han indexado. Los rastreadores web o crawlers ayudan en la recolección de información sobre un sitio web y los enlaces relacionados con ellos y también ayudan a validar el código HTML e hipervínculos.

Funcionamiento de los crawlers

Los rastreadores Web recogen información como la URL de la página web, la información de las metaetiquetas, el contenido de la página web, los enlaces en la página web y los destinos principales de esos enlaces, el título de la página web y cualquier otra información relevante. Realizan un seguimiento de las direcciones URL que ya se han descargado para evitar la descarga de la misma página de nuevo.

Una combinación de directivas como la de re-visita, la política de selección, la política de paralelización y la política de cortesía determina el comportamiento del buscador web. Hay muchos retos para los rastreadores web, debido a la continua evolución de la red, las ventajas y desventajas de la selección de contenidos, las obligaciones sociales y el hacer frente a la competencia.

Crawlers y buscadores

Los rastreadores web son los componentes clave de los motores y sistemas de búsqueda web que se ven en las páginas web. Ayudan en la indexación de las entradas web y permiten a los usuarios enviar consultas en el índice y también proporcionan las páginas que responden a las consultas. Otro uso de los rastreadores web es archivar webs, lo que implica grandes conjuntos de páginas web para ser recogidos y archivados periódicamente. Los rastreadores Web también se utilizan en la minería de datos, donde las páginas se analizan por sus diferentes propiedades como las estadística, y, asimismo, se emplean para análisis de datos.

Uso de los Crawlers

Los crawlers sirven sobre todo para recolectar datos de otros sitios web con los que crear una base de datos mucho más grande de lo que podrías hacer de otra manera. Para extraer los datos se utilizan lo diferentes motores de búsqueda que analizan los sitios y les otorgan una posición en las SERPs, entre otras cosas.

Estos crawlers analizan precios de los ecommerce, enlaces externos, internos, direcciones, mails… De todas las páginas que encuentrar y luego organizan esa información.

Tipos de Crawlers

RBSE (Eichmann, 1994) este crawler fue el primero que se publicó y se basa en dos programas fundamentalmente, el primero, spider, mantiene la base de datos relacional y el segundo programa, mite, descarga las páginas webs.

World Wide Web Worm (McBryan, 1994) este crawler lo que hace es recolectar los datos y construye un índice de titulos y urls de las páginas.

Google Crawl (Brin y Page, 1998) este crawler basado en C++ y Python, recorre internet extrayendo la información de los dominios y analizando si esos datos son nuevos o ya estaban allí cuando pasó anteriormente. Si no lo está, añade el documento a la base de datos.

Existen muchos más crawlers, usados para multitud de cosas, algunas de ellas poco éticas y legales, os invito a buscar más información sobre el funcionamiento de estos indexadores de contenido.

Cómo bloquear a los Crawlers

Si no quieres que alguno de los crawlers existentes entren a tu web y te saquen información, puedes bloquearlos a través del archivo robots.txt. Para ello tienes que usar la directiva User-agent: y el nombre del bot que no quieres que acceda y Disallow: /. En el caso de Google, el user agent sería Googlebot y en el caso de la herramienta Semrush, User-agent: SemrushBot Disallow: /

User-agent: SemrushBot-SA
Disallow: /

Preguntas frecuentes sobre Crawler

¿Qué significa Crawler en marketing digital?

El crawler se refiere a la idea explicada en esta página del glosario: Significado: Un crawler o rastreador web, también conocido como spider, es un bot que ayuda en la indexación de la web. Los rastreadores web o crawlers ayudan en la recolección de información sobre un sitio web y los enlaces relacionados con ellos y también ayudan a validar el código HTML e hipervínculos. En la práctica, sirve para que el equipo hable del mismo fenómeno con un criterio común.

¿Cuándo conviene prestar atención a Crawler?

Conviene revisarlo cuando influye en la captación, la medición, la experiencia de usuario o el rendimiento de una campaña. Lo importante es vincular Crawler con una decisión concreta, no tratarlo como una definición aislada.

¿Cómo se aplica Crawler dentro de una estrategia digital?

Se aplica llevando la definición a acciones: revisar los datos relacionados, detectar en qué punto del embudo aparece y decidir si requiere optimización, seguimiento o documentación interna.

¿Qué errores son habituales al interpretar Crawler?

El error más frecuente es usar Crawler de forma demasiado amplia. Antes de sacar conclusiones conviene comprobar el contexto, el canal o herramienta implicados y la métrica o comportamiento que se quiere explicar.