Los cinco retos del Big Data

Datos multi-estructurados, con ruido, analíticas interactivas… son algunos de los retos a los que se enfrenta el Big Data. El

BIG_DATA

Datos multi-estructurados, con ruido, analíticas interactivas… son algunos de los retos a los que se enfrenta el Big Data. El enfoque tradicional para integrar datos ya no es productivo. Las nuevas fuentes, social data y machine log data, se caracterizan por su volatilidad, incompatible con los esquemas rígidos e inflexibles utilizados hasta ahora.

Martin Willcox, director de producto y soluciones de marketing international de Teradata Corporation, la compañía especializada en aplicaciones de marketing y análisis de datos, ha descrito este fenómeno y detectado los cinco restos a los que actualmente se enfrenta el Big Data:

Datos multi-estructurados: los datos de transacciones y eventos que se han ido almacenando, integrando y analizando en los Data Warehouses tradicionales y en aplicaciones de Business Intelligence durante las tres últimas décadas están en gran parte orientados a dejar constancia de lo ocurrido y se definen en términos de esquema explícito. No siempre se puede decir lo mismo de las nuevas fuentes de Big Data. Social data y machine log data se caracterizan por su volatilidad: el modelo de información que usamos para entenderlos puede ser implícito en lugar de explícito, puede ser orientado a documento, pudiendo (o no) incluir algún nivel de organización jerárquica, puede cambiar continuamente o puede que queramos aplicar diferentes interpretaciones a los datos en tiempo real (esquema de lectura) en función de cada uso y aplicación.

Analíticas interactivas: las interacciones, tanto entre personas y cosas, personas y personas como cosas y cosas, describen redes o gráficos. Muchos análisis de interacciones se caracterizan por operaciones en las que el orden de registro es importante. Sin embargo, la cronología, la trayectoria y el gráfico dan problemas debido a las tecnologías ANSI-standar SQL, ya que están basados en el modelo relacional y en la teoría de conjuntos, en las que el orden de registro no tiene importancia. Son variadas las ampliaciones que se han propuesto a lo largo de los años para que el estándar ANSI SQL haga frente a estas limitaciones, entre ellas las funciones User Defined Functions (UDF) y Order Analytical OLAP, pero solo son una solución parcial, ya que no siempre se podrá saber cuándo una función refleja el esquema preciso de los datos que se necesitan procesar.

Datos con ruido: algunos grupos de Big Data son grandes y con ruido y se vuelven aún más grandes rápidamente, se accede a ellos con poca frecuencia para ayudar al procesamiento asociado con objetivos de nivel de servicio relajados y sin valor probado. Las empresas tienen que capturar volúmenes de datos cada vez más grandes en los que la señal útil está acompaña por un volumen aún mayor de datos que suponen ruido para la mayor parte de las compañías, que buscan modelos rentables de almacenamiento y procesamiento de datos.

• El reto de “puede haber una aguja en un pajar pero si se necesitan doce meses y 500.000 euros para averiguarlo no hay tiempo ni dinero para investigarlo”: muchas organizaciones comprenden que los nuevos grupos de Big Data son valiosos pero no saben dónde buscarlos. Los enfoques tradicionales hacia Data Integration (modelar los sistemas de origen, desarrollar un nuevo e integrado modelo de datos, aplicar los modelos de origen al de destino, desarrollar procesos ETL que capturen y transformen de forma precisa los datos del sistema de origen al modelo de destino, etc. ) suelen dar problemas con la captura de datos multi-estructurados y tienen aún más dificultades en estos escenarios debido al tiempo y coste que hay entre el Data Scientist y el acceso a los nuevos datos. Se ha estimado que los costes de adquisición, normalización e integración de datos representan hasta el 70% del coste total de implementar una base de datos analítica y aún así es más barato que las alternativas.

• Ir más allá y el valor de la entrega: numerosos proveedores y analistas siguen afirmando que el objetivo de un proyecto de Big Data es aumentar los conocimientos empresariales, sin embargo esto no es del todo cierto, ya que el objetivo debe ser usar esa visión para cambiar el negocio y así impulsar el retorno de la inversión (ROI), explica Willcox .

“Como dijo uno de mis antiguos jefes: “procesos arcaicos de negocio + tecnología novedosa y cara = procesos de negocio caros y viejos”. Utilizar los conocimientos obtenidos a partir de experimentos analíticos a menudo requerirá que creemos los datos y analíticas necesarias, de manera que podamos compartir de forma fiable y precisa nuevas KPIs, medidas y alertas con toda nuestra empresa”, comenta Willcox al respecto. “Aunque es cierto que los Data Scientist son cada vez más importantes para cualquier negocio, ellos no hacen que funcione, sino los encargados, empleados, responsables de atención al cliente o supervisores de logística. Asimismo, todos los datos que no puedan ser procesables y compartidos más allá del laboratorio de datos no permitirán hacer un trabajo mejor que el anterior”, concluye.