Las
etapas del trabajo en big data incluyen muchas decisiones que deben ser tomadas
por el usuario estructuradas de la siguiente manera:
•
Comprensión del dominio de la aplicación, del conocimiento relevante y de los objetivos
del usuario final.
•
Creación del conjunto de datos: Consiste en la selección del conjunto de datos,
o del subconjunto de variables o muestra de datos, sobre los cuales se va a realizar
el descubrimiento.
•
Limpieza y pre procesamiento de los datos: Se compone de operaciones, tales como
recolección de la información necesaria sobre la cual se va a realizar el proceso,
decidir las estrategias sobre la forma en que se van a manejar los campos de
los datos no disponibles, estimación del tiempo de la información y sus posibles
cambios, etc.
•
Reducción de los datos y proyección: Encontrar las características más
significativas para representar los datos, dependiendo del objetivo del
proceso. En este paso se pueden utilizar métodos de transformación para reducir
el número efectivo de variables a ser consideradas o para encontrar otras
representaciones de los datos.
•
Elegir la tarea de minería de datos: Decidir si el objetivo del proceso es:
regresión, clasificación, agrupamiento, etc.
•
Elección del algoritmo(s) de minería de datos: Selección del método(s) a ser utilizado
para buscar los patrones en los datos. Incluye además la decisión sobre qué
modelos y parámetros pueden ser los más apropiados.
•
Minería de datos: Consiste en la búsqueda de los patrones de interés en una determinada
forma de representación o sobre un conjunto de representaciones, utilizando
para ello métodos de clasificación, reglas o árboles, regresión, agrupación,
etc.
•
Interpretación de los patrones encontrados: Dependiendo de los resultados, a veces
se hace necesario regresar a uno de los pasos anteriores.
•
Consolidación del conocimiento descubierto: Consiste en la incorporación de este
conocimiento al funcionamiento del sistema, o simplemente documentación e
información a las partes interesadas.
El
proceso de BD puede involucrar varias iteraciones y puede contener ciclos entre
dos de cualquiera de los pasos. La mayoría de los trabajos que se han realizado
sobre BD se centran en la etapa de minería en la búsqueda de algoritmos que
extraigan relaciones y conocimiento de grandes cantidades de datos. Sin embargo,
los otros pasos se consideran importantes para el éxito del proceso completo.
Gran parte del esfuerzo del proceso de extraer conocimiento recae sobre la fase
de preparación de los datos, fase crucial para tener éxito, como ya se comentó
anteriormente.