martes, 8 de enero de 2019

Etapas en los procesos de big data


Las etapas del trabajo en big data incluyen muchas decisiones que deben ser tomadas por el usuario estructuradas de la siguiente manera:

Comprensión del dominio de la aplicación, del conocimiento relevante y de los objetivos del usuario final.

Creación del conjunto de datos: Consiste en la selección del conjunto de datos, o del subconjunto de variables o muestra de datos, sobre los cuales se va a realizar el descubrimiento.

• Limpieza y pre procesamiento de los datos: Se compone de operaciones, tales como recolección de la información necesaria sobre la cual se va a realizar el proceso, decidir las estrategias sobre la forma en que se van a manejar los campos de los datos no disponibles, estimación del tiempo de la información y sus posibles cambios, etc.

• Reducción de los datos y proyección: Encontrar las características más significativas para representar los datos, dependiendo del objetivo del proceso. En este paso se pueden utilizar métodos de transformación para reducir el número efectivo de variables a ser consideradas o para encontrar otras representaciones de los datos.

• Elegir la tarea de minería de datos: Decidir si el objetivo del proceso es: regresión, clasificación, agrupamiento, etc.

• Elección del algoritmo(s) de minería de datos: Selección del método(s) a ser utilizado para buscar los patrones en los datos. Incluye además la decisión sobre qué modelos y parámetros pueden ser los más apropiados.

• Minería de datos: Consiste en la búsqueda de los patrones de interés en una determinada forma de representación o sobre un conjunto de representaciones, utilizando para ello métodos de clasificación, reglas o árboles, regresión, agrupación, etc.

• Interpretación de los patrones encontrados: Dependiendo de los resultados, a veces se hace necesario regresar a uno de los pasos anteriores.

• Consolidación del conocimiento descubierto: Consiste en la incorporación de este conocimiento al funcionamiento del sistema, o simplemente documentación e información a las partes interesadas.

El proceso de BD puede involucrar varias iteraciones y puede contener ciclos entre dos de cualquiera de los pasos. La mayoría de los trabajos que se han realizado sobre BD se centran en la etapa de minería en la búsqueda de algoritmos que extraigan relaciones y conocimiento de grandes cantidades de datos. Sin embargo, los otros pasos se consideran importantes para el éxito del proceso completo. Gran parte del esfuerzo del proceso de extraer conocimiento recae sobre la fase de preparación de los datos, fase crucial para tener éxito, como ya se comentó anteriormente.