Qué es web mining - Definición, significado y para qué sirve

web mining

Definición:

El web mining o minería web es el proceso de utilizar técnicas de minería de datos y algoritmos para extraer información directamente desde la Web ya sea a través de documentos Web y servicios Web, hipervínculos y registros del servidor. El objetivo de la minería Web es buscar patrones en los datos de la Web mediante la recopilación y análisis de información a fin de obtener información sobre las tendencias, la industria y los usuarios en general.

Índice de contenidos

1 Tipos de web mining:
2 Web mining frente a la minería de datos
3 Preguntas frecuentes sobre Web Mining

Tipos de web mining:

Web mining de contenido: Proceso de extracción de información útil a partir de los contenidos de las páginas Web y documentos Web, que son en su mayoría texto, imágenes y archivos de audio o vídeo.
Minería de estructura Web: Proceso de análisis de la estructura de nodos y la conexión de un sitio web a través del uso de la teoría de grafos. Hay dos cosas que se pueden obtener de esta: la estructura de un sitio web en términos de cómo se conecta a otros sitios y la estructura del documento de la propia página web, en cuanto a cómo se conecta cada página.
Minería del uso de la web: Proceso de extracción de patrones e información de los registros del servidor para obtener conocimientos sobre la actividad del usuario, de dónde procede, cuántos usuarios han hecho clic en un elemento en el sitio y los tipos de actividades que se efectúa en el sitio.

Web mining frente a la minería de datos

Al comparar la minería web con la minería de datos tradicional, hay tres diferencias principales a considerar:

Escala: En la minería de datos tradicional, el procesamiento de 1 millón de registros de una base de datos supondría un gran trabajo. En la minería web, incluso 10 millones de páginas no sería un número muy grande.
Acceso: Al hacer minería de datos de información corporativa, los datos son privados y con frecuencia requieren derechos de acceso para leerlos. Para la minería web, los datos son públicos y rara vez requiere derechos de acceso. Sin embargo, la minería web tiene limitaciones adicionales, debido al acuerdo implícito con respecto a los webmasters del acceso automatizado a estos datos. Este acuerdo implícito es que un webmaster permite rastreadores de acceso a los datos útiles en el sitio web, y en cambio el rastreador promete no sobrecargar el sitio y tiene el potencial de atraer más tráfico a la página web una vez que el índice de búsqueda está publicado. Con la minería web, a menudo no hay tal índice, lo que significa que el rastreador tiene que ser muy cuidadoso durante el proceso de rastreo, para no causar ningún problema para el webmaster.
Estructura: Una tarea de minería de datos tradicional obtiene información de una base de datos, lo que proporciona un cierto nivel de estructura explícita. Una tarea de minería web típica es procesar datos no estructurados o semi-estructurados de páginas web. Aun cuando la información subyacente para las páginas web proviene de una base de datos, esto a menudo es oscurecida por el formato HTML.

Preguntas frecuentes sobre Web Mining

¿Qué es web mining?

Web mining es el proceso de extraer y analizar información procedente de sitios web, enlaces, contenidos o comportamiento de usuarios. Se utiliza para descubrir patrones útiles en grandes volúmenes de datos online.

¿Para qué sirve el web mining?

Sirve para investigar mercados, detectar tendencias, analizar competidores, estudiar contenidos y mejorar decisiones basadas en datos. También puede apoyar tareas de SEO, inteligencia competitiva y analítica digital.

¿Qué tipos de web mining existen?

Suele distinguirse entre minería de contenido web, minería de estructura web y minería de uso web. Cada enfoque analiza una parte diferente: el contenido publicado, los enlaces o la forma en que los usuarios interactúan con un sitio.

¿Qué precauciones hay que tener con el web mining?

Debe respetar la legalidad, la privacidad, las condiciones de uso de los sitios y los límites técnicos de acceso. Extraer datos sin control puede generar problemas legales, éticos o de rendimiento.