Qué es Crawler

Crawler

Significado:

Un crawler o rastreador web, también conocido como spider, es un bot que ayuda en la indexación de la web. Exploran una página a la vez a través de un sitio web hasta que todas las páginas se han indexado. Los rastreadores web o crawlers ayudan en la recolección de información sobre un sitio web y los enlaces relacionados con ellos y también ayudan a validar el código HTML e hipervínculos.

Funcionamiento de los crawlers

Los rastreadores Web recogen información como la URL de la página web, la información de las metaetiquetas, el contenido de la página web, los enlaces en la página web y los destinos principales de esos enlaces, el título de la página web y cualquier otra información relevante. Realizan un seguimiento de las direcciones URL que ya se han descargado para evitar la descarga de la misma página de nuevo.

Una combinación de directivas como la de re-visita, la política de selección, la política de paralelización y la política de cortesía determina el comportamiento del buscador web. Hay muchos retos para los rastreadores web, debido a la continua evolución de la red, las ventajas y desventajas de la selección de contenidos, las obligaciones sociales y el hacer frente a la competencia.

Crawlers y buscadores

Los rastreadores web son los componentes clave de los motores y sistemas de búsqueda web que se ven en las páginas web. Ayudan en la indexación de las entradas web y permiten a los usuarios enviar consultas en el índice y también proporcionan las páginas que responden a las consultas. Otro uso de los rastreadores web es archivar webs, lo que implica grandes conjuntos de páginas web para ser recogidos y archivados periódicamente. Los rastreadores Web también se utilizan en la minería de datos, donde las páginas se analizan por sus diferentes propiedades como las estadística, y, asimismo, se emplean para análisis de datos.

Uso de los Crawlers

Los crawlers sirven sobre todo para recolectar datos de otros sitios web con los que crear una base de datos mucho más grande de lo que podrías hacer de otra manera. Para extraer los datos se utilizan lo diferentes motores de búsqueda que analizan los sitios y les otorgan una posición en las SERPs, entre otras cosas.

Estos crawlers analizan precios de los ecommerce, enlaces externos, internos, direcciones, mails… De todas las páginas que encuentrar y luego organizan esa información.

Tipos de Crawlers

RBSE (Eichmann, 1994) este crawler fue el primero que se publicó y se basa en dos programas fundamentalmente, el primero, spider, mantiene la base de datos relacional y el segundo programa, mite, descarga las páginas webs.

World Wide Web Worm (McBryan, 1994) este crawler lo que hace es recolectar los datos y construye un índice de titulos y urls de las páginas.

Google Crawl (Brin y Page, 1998) este crawler basado en C++ y Python, recorre internet extrayendo la información de los dominios y analizando si esos datos son nuevos o ya estaban allí cuando pasó anteriormente. Si no lo está, añade el documento a la base de datos.

Existen muchos más crawlers, usados para multitud de cosas, algunas de ellas poco éticas y legales, os invito a buscar más información sobre el funcionamiento de estos indexadores de contenido.

Cómo bloquear a los Crawlers

Si no quieres que alguno de los crawlers existentes entren a tu web y te saquen información, puedes bloquearlos a través del archivo robots.txt. Para ello tienes que usar la directiva User-agent: y el nombre del bot que no quieres que acceda y Disallow: /. En el caso de Google, el user agent sería Googlebot y en el caso de la herramienta Semrush, User-agent: SemrushBot Disallow: /

User-agent: SemrushBot-SA
Disallow: /

Términos relacionados