Glosario digital
Significado:
Un crawler o rastreador web, también conocido como spider, es un bot que ayuda en la indexación de la web. Exploran una página a la vez a través de un sitio web hasta que todas las páginas se han indexado. Los rastreadores web o crawlers ayudan en la recolección de información sobre un sitio web y los enlaces relacionados con ellos y también ayudan a validar el código HTML e hipervínculos.
Los rastreadores Web recogen información como la URL de la página web, la información de las metaetiquetas, el contenido de la página web, los enlaces en la página web y los destinos principales de esos enlaces, el título de la página web y cualquier otra información relevante. Realizan un seguimiento de las direcciones URL que ya se han descargado para evitar la descarga de la misma página de nuevo.
Una combinación de directivas como la de re-visita, la política de selección, la política de paralelización y la política de cortesía determina el comportamiento del buscador web. Hay muchos retos para los rastreadores web, debido a la continua evolución de la red, las ventajas y desventajas de la selección de contenidos, las obligaciones sociales y el hacer frente a la competencia.
Los rastreadores web son los componentes clave de los motores y sistemas de búsqueda web que se ven en las páginas web. Ayudan en la indexación de las entradas web y permiten a los usuarios enviar consultas en el índice y también proporcionan las páginas que responden a las consultas. Otro uso de los rastreadores web es archivar webs, lo que implica grandes conjuntos de páginas web para ser recogidos y archivados periódicamente. Los rastreadores Web también se utilizan en la minería de datos, donde las páginas se analizan por sus diferentes propiedades como las estadística, y, asimismo, se emplean para análisis de datos.