¿Qué es Data Lake?

Un Data Lake es un almacén de datos masivo y de fácil acceso para almacenar big data se entiende big data a  grandes volúmenes de datos provenientes de registros log, arquitecturas IoT y registros provenientes de social media como twitter, Facebook o cualquier otra medio social de alcance plano.

Los Data Warehouse tradicionales están optimizados para el análisis multimensional de los datos almacenando solo atributos y entregando datos con bajo nivel de agregación, siendo la componente histórica una de las dimensiones principales.

Sin embargo los Data Lake se diseñan para conservar todos los atributos y muy especialmente cuando no se conoce el fin o alcance del análisis de los mismos.

Hadoop es la arquitectura más común que se utiliza para crear lagos de datos debiendo no confundir la arquitectura tecnológica con el concepto de Data Lake.

Data Lake vs. Data Warehouse

Los Data Lake tienen su propia estrategia para almacenar una gran cantidad de datos primarios con su formato nativo para lo cual utilizan una arquitectura plana –ficheros planos- hasta que es necesario su uso bien sea para analítica o para ir construyendo un Data Mart

A diferencia de los Data Lake las arquitecturas tradicionales de Data Warehouse almacenan los datos en un modo jerárquico para posteriormente facilitar las extracciones de los mismos a modelos multidimensionales.

La principal diferencia con un Data Mart reside en que los Data Lake se vuelcan los datos con todos sus atributos es decir en –raw-, por lo que los datos  seran estructurados, semi estructurados y no estructurados como por ejemplo post de twitter, pdf, .xls, .jpeg etc que serán seleccionados posteriormente  en función del análisis que deseen efectuar efectuar los científicos de datos.

El coste con relación a los tradicionales Data Warehouse están entre un 10 a 100 veces mas reducidos, fundamentalmente por el coste de procesamiento paralelo y por las arquitecturas hardware con procesadores de coste mas reducido.

Una ventaja adicional de estos arquitecturas Hadoop para construir un Data Lake es el ahorro en la fase de extracción, transformación y carga a modelos relacionales para su posterior trabajo en análisis pues en estos modelos se efectúa la extracción posteriormente en función de la necesidad de negocio efectuamos la carga en la arquitectura destino para su análisis.

Nuestras soluciones en Data Lake

Clarcat proporciona a sus clientes las tecnologías estándar más innovadoras y adecuadas a su estrategia digital

Cloudera

Cloudera

Cloudera es una potente y escalable plataforma con una flexible ejecución de cargas de trabajo junto con una robusta seguridad y una excelente gestión de datos que cubre las necesidades empresariales.

Leer más 

¿Por qué Clarcat?

Porque atesoramos una experiencia y conocimiento de más de veinticinco años en la implantación de soluciones innovadoras y así como un elevado compromiso con nuestros clientes

 Calidad

 Efectividad

 Compromiso

 Rigor

Referencias

La arquitectura Hadoop permite el procesamiento de TBytes de información con un coste muy reducido, el uso de la plataforma CLOUDERA facilita la integración de las diferentes herramientas de código abierto proporcionando una mayor eficiencia en el uso de esta tecnología