En los data lakes se almacenan grandes volúmenes de datos que, en ocasiones, alcanzan los petabytes.
Los data lakes son amplios conjuntos de datos procedentes de muchas y, a menudo, diferentes fuentes que abarcan a toda la organización. Un data lake puede tener datos procedentes del internet de las cosas, sensores o dispositivos, tráfico web, la actividad en LinkedIn o Twitter y el departamento de ventas. Un data lake almacena la información de una forma más natural si se compara con un data-mart, pues facilita la recopilación de los datos procedentes de diferentes fuentes y con distintas estructuras. Es importante para una organización establecer y mantener de manera adecuada su data lake, teniendo presente temas como el gobierno, la privacidad y la seguridad del mismo.
Características del un Data Lake
-
Tener una arquitectura escalable con una habilidad alta de crecer con el volumen de los datos. Esto les permite conservar todos los datos para cuando puedan ser utilizados, añadir nuevas fuentes, etc.
-
Poseer herramientas para realizar Gobernanza de los datos: gestión de políticas de retención, disposición, identificación de datos a ser retirados, gestión de leyes y normas de aplicación (acceso a fuentes, RGPD, licencias de uso, licencias de distribución, etc.).
-
Disponer de un catálogo centralizado e indexado del inventario de datos (y metadatos) que incluya: fuentes, versiones, veracidad y precisión de los datos. Sería deseable que este catálogo permitiese reflejar la cardinalidad de los datos (cómo se relacionan con otros) y, además, guardar la traza de los datos.
-
Mostrarse cómo un almacén único de datos fácil de gestionar y de compartir por todas las aplicaciones y, accesible desde todos los dispositivos. Este interfaz único debería facilitar el acceso a todos los datos en todos los formatos que sean requeridos. A su vez, será el usuario quién decidirá qué datos la interesan (explora) y cómo los relaciona.
-
Soportar la relación de analítica ágil tanto desde como en el data-lake: utilizando múltiples aproximaciones analítica y flujos de datos.
-
Asegurar la eficiencia incluyendo el borrado selectivo, la compresión o la de-duplicación de datos.
-
Soportar que los datos no vayan al proceso si no que el proceso vaya a los datos.
Democratizar los datos
Una de las características que da mayor valor a un data lake, es poder democratizar los datos, esto significa que todo aquel que lo requiera pueda acceder sin enormes restricciones, ya que uno de los atributos es poder tener acceso a la información para la toma de decisiones estratégicas. En un data lake existe una capa que juega un papel crucial en este aspecto, se le conoce como catálogo de datos.
Un catálogo de datos, en un data lake, es el primer punto de consulta dentro de una compañía para que los interesados puedan navegar por diferentes fuentes de datos, no solo en el data lake sino dentro de toda la compañía.
Ventajas de los Data Lake
-
Almacenamiento de datos rentable, por su enfoque cloud.
-
Soporte para crear modelos, ya sea para clasificar elementos o predecir tendencias, más allá de hacer solo reporting.
-
Fácil escalabilidad, ya que está pensado así de manera nativa.
-
Gestión unificada de la seguridad.
-
Menos tiempo y esfuerzo administrando
-
Esquema simplificado y gobernanza de datos.
-
Redundancia y movimiento de datos reducido.
-
Acceso directo a datos para herramientas de análisis.
Si te interesa conocer más sobre esto, te recomendamos revisar el Diplomado de Especialización en Business Intelligence que tenemos aquí en CEUPE, con el cual se profundizará en los conocimientos y habilidades de gestión y análisis de datos aplicables a las organizaciones, con el fin de obtener una distinción entre el resto de compañías y una mejora de los datos en la misma. La composición de este programa formativo trata de estar adecuada al más alto nivel de formación, contando con un rigor académico e innovación curricular.
Comentarios