¿Qué es Data Mining?

Fuente de la imagen: mvc archivo propio
Para A. Zanasi, V. Rolf y otros[1], data mining o minería de datos, es el procedimiento mediante el cual se extraen, detectan patrones o modelos en grandes conjuntos de datos, involucrando métodos en la intersección del aprendizaje automático, las estadísticas y los sistemas de bases de datos. De esa definición se deduce que el término “minería” no es correcto ya que la finalidad no es la extracción de datos, sino de enfoques, modelos o patrones que siguen los datos analizados. En cualquier caso, la doctrina consultada califica a data mining como subcampo interdisciplinario de la informática y las estadísticas, con el objetivo general de extraer información (con métodos inteligentes) de un conjunto de datos y transformar la información en una estructura comprensible para su uso posterior.

P. Smyth, G. Piatetsky y U. Fayyad[2] entienden data mining como el proceso de descubrimiento de conocimiento (tendencias, patrones ocultos…) en grandes bases de datos, tanto de los datos sin procesar como otros aspectos de administración de datos, preprocesamiento de datos, consideraciones de modelos e inferencias, métricas de interés, consideraciones de complejidad, procesamiento posterior de estructuras descubiertas, visualización y actualización en línea. La diferencia del data mining respecto al análisis de datos tradicional se encuentra es que este ultimo “analiza los datos” con independencia del tamaño de estos y data mining utiliza modelos estadísticos y de aprendizaje automático para descubrir patrones encubiertos en grandes volúmenes de información.

Siguiendo la doctrina referenciada, en data mining se pueden establecer las etapas de selección, reprocesamiento, transformación, procesamiento de datos e interpretación o evaluación, Otra clasificación podría ser: comprensión de datos, preparación de estos, modelado, evaluación y expansión o el procedimiento simplificado de tres fases: preprocesamiento, esencial para eliminar datos superfluos (basura) y errores y donde se ensamblan conjuntos de datos de destino; procesamiento de datos, donde se detectan desde valores atípicos hasta datos inusuales, se buscan relaciones entre variables, se descubren agrupaciones y estructuras específicas, se clasifican, se detectan comportamientos o modelos y se representan estos outputs; finalmente la fase de validación de resultados.
_______________________
[1] Stadler, Rolf; Verhees, Jaap; Zanasi, Alessandro, Cabena, Peter. Discovering Data Mining: From Concept to Implementation. Prentice Hall. 1997.
[2] Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic. From Data Mining to Knowledge Discovery in Databases. Kdnuggets.1997.