joye Jiang@zhuoyingjiang
Introducción
Una herramienta de minería web es un software informático que utiliza técnicas de minería de datos para identificar o descubrir patrones a partir de grandes conjuntos de datos. Los datos son dinero en el mundo actual, pero la información es enorme, diversa y redundante. Contar con las herramientas de minería va a ser una puerta de entrada para ayudarte a obtener la información correcta. En este post, voy a hacer una lista que recopila algunas de las herramientas de minería web más populares alrededor de la web.
Existen 3 áreas de la minería web: la minería de contenidos web, la minería de usos web y la minería de estructuras web.
-
Minería de contenido web: proceso de recopilación de datos útiles de sitios web. Este contenido incluye noticias, comentarios, información de la empresa, catálogos de productos, etc.
-
Minería de uso web: un proceso de identificación o descubrimiento de patrones a partir de grandes conjuntos de datos. Y estos patrones te permiten predecir el comportamiento de los usuarios o algo por el estilo. Son dos tipos de técnicas para patrones: herramienta de análisis de patrones y herramienta de descubrimiento de patrones.
-
Minería de estructuras web: también conocida como minería de enlaces. Es un proceso para descubrir la relación entre páginas web enlazadas por información o conexión de enlace directo.
Las 7 Mejores Herramientas De Minería Web En La Web
-
R
-
Octoparse
-
Oracle Data Mining (ODM)
-
Tableau
-
Scrapy
-
HITS algorithm
-
PageRank Algorithm
-
R
R es un entorno de software y lenguaje de programación de código abierto para gráficos y computación estadística que cuenta con el respaldo de la Fundación R para Computación Estadística. Cuando nació el lenguaje R, su mayor ventaja fue su aparición como software libre, su código fuente y todo está disponible para que podamos verlo directamente. El lenguaje R se usa ampliamente entre los estadísticos y los mineros de datos para desarrollar software estadístico y análisis de datos.
Sistemas operativos compatibles: plataformas UNIX, Windows, MacOS
Área de minería web: Minería de uso web
- Octoparse
Octoparse es una herramienta de minería de datos web simple pero poderosa que automatiza la extracción de datos web. Te permite crear reglas de extracción de alta precisión. (Sabes que definitivamente mencionaré nuestra herramienta). Los rastreadores que se ejecutan en Octoparse están determinados por la regla configurada. La regla de extracción le diría a Octoparse: a qué sitio web ir; dónde están los datos que planea rastrear; qué tipo de datos desea, etc.
Sistemas operativos compatibles: Windows XP/7/8/10 y macOS 10.10 (Yosemite) o versión superior (x64)
Área de minería web: Minería de contenido web
- Oracle Data Mining (ODM)
Oracle Data Mining es un software de minería de datos de Oracle. Oracle Data Mining se implementa en el kernel de Oracle Database y los modelos de minería son objetos de base de datos de primera clase. Los procesos de Oracle Data Mining utilizan funciones integradas de Oracle Database para maximizar la escalabilidad y hacer un uso eficiente de los recursos del sistema.
Sistemas operativos compatibles: Microsoft Windows
Área de minería web: Minería de uso web
- Tableau
Tableau ofrece una familia de productos de visualización de datos interactivos centrados en la inteligencia empresarial. Tableau permite una visión instantánea al transformar los datos en visualizaciones interactivas visualmente atractivas llamadas paneles. Este proceso toma solo segundos o minutos en lugar de meses o años y se logra mediante el uso de una interfaz de arrastrar y soltar fácil de usar.
Sistemas operativos compatibles: Mac, Microsoft Windows
Área de minería web: Minería de uso web
- Scrapy
Scrapy es un marco de código abierto para recopilar datos de sitios web. Está escrito en Python, diseñado originalmente para web scraping también se puede utilizar para extraer datos mediante API o como rastreador web de uso general. Dado que es un framework, Scrapy tiene una serie de herramientas poderosas para hacer el "scraping" o extraer información de webs de manera fácil y eficiente.
Sistemas operativos compatibles: Linux, Windows, Mac y BSD
Área de minería web: Minería de contenido web
- HITS algorithm
HITS, abreviatura de Búsqueda de temas inducida por hipervínculos, también conocido como centros y autoridades, es un algoritmo de análisis de enlaces que califica las páginas web.
En el algoritmo HITS, el primer paso es recuperar las páginas más relevantes para la consulta de búsqueda. Este conjunto se denomina conjunto raíz y se puede obtener tomando las páginas principales devueltas por un algoritmo de búsqueda basado en texto. Un conjunto base se genera aumentando el conjunto raíz con todas las páginas web que están vinculadas desde él y algunas de las páginas que lo enlazan. Las páginas web en el conjunto base y todos los hipervínculos entre esas páginas forman un subgrafo enfocado.
Área de minería web: Minería de estructuras web
- PageRank Algorithm
El algoritmo de PageRank es el algoritmo de minería de estructura web popular.
PageRank es un algoritmo de análisis de enlaces y asigna una ponderación numérica a cada elemento de un conjunto de documentos con hipervínculos, como la World Wide Web, con el propósito de "medir" su importancia relativa dentro del conjunto. El algoritmo se puede aplicar a cualquier colección de entidades con citas y referencias recíprocas.
Área de minería web: Minería de estructuras web
Artículo: https://www.octoparse.es/blog/7-herramientas-de-mineria-web-en-la-web