Big Data
El Big Data es un gran volumen de información de diferentes fuentes y con estructuras distintas que llegan a una velocidad de cambio tan rápida como una avalancha de datos que no paran de llegar y moverse, y que son muy difíciles de procesar y analizar con los sistemas de cómputo tradicionales. Por ello requerimos del Cloud Computing.
Las 5 V del Big Data
El big data debe cumplir con estas 5 V
- Volumen. Gran cantidad de información difícil de procesar con los medios tradicionales
- Variabilidad. Los datos provienen de diversas fuentes, soportes, herramientas y plataformas
- Velocidad. Los datos se generan y almacenan a una velocidad sin precedentes
- Veracidad. Las empresas deben asegurarse de que los datos están recopilando tengan validez
- Valor. Es necesario saber qué tan pertinente es la información para los objetivos que se busca.
Seguramente te preguntarás, si los datos vienen de muchísimos lugares ¿Cómo podemos analizarlos cómo si fueran una sola fuente?. Para eso tenemos un proceso llamado ETL.
- Extracción. Capturamos los datos de las fuentes y los centralizamos
- Transformación. Estandarizamos los datos (data cleaning) para que parezcan de una misma fuente, para ello necesitaremos un algoritmo para limpiar estos datos o utilizar machine learning
- Load. Es la carga de los datos ya estandarizados en un data warehouse para su posterior análisis.

En la mayoría de los casos, con el fin de utilizar eficazmente el Big Data, debe combinarse con datos estructurados (normalmente de una base de datos relacional) de una aplicación comercial más convencional, como un ERP (Enterprise Resource Planning) o un CRM (Customer Relationship Management).


Comentarios
Publicar un comentario