Lago de datos

Un lago de datos (en inglés: data lake) es un sistema o biblioteca de datos almacenados en su formato bruto,[1]​ usualmente blobs o ficheros. Habitualmente, un lago de datos es un único repositorio de datos que incluye copias en bruto de datos del sistema, datos de sensores, datos sociales, etc. y datos transformados usados para tareas como generación de informes, visualización, analítica avanzada y aprendizaje automático. Un lago de datos puede incluir datos estructurados de bases de datos relacionales (filas y columnas), datos semiestructurados (CSV, logs, XML, JSON, etc.), datos sin estructurar (correos electrónicos, documentos, PDF, etc.) y datos binarios (imágenes, audio, vídeo, etc.).[2]​ Los lagos de datos pueden alojarse en las instalaciones de la organización o desplegarse «en la nube» usando servicios de proveedores como Amazon, Microsoft o Google. Los lagos de datos mal gestionados han sido llamados jocosamente «pantanos de datos» (en inglés: data swamps).[3]

Origen del término

James Dixon, entonces director de tecnología de Pentaho, acuñó el término en 2011[4]​ para diferenciarlo de un data mart, que es un repositorio más pequeño de atributos interesantes obtenidos a partir de datos en bruto.[5]​ Para promover los lagos de datos, argumentó que los data marts tienen varios problemas inherentes, como la creación de silos de datos. Un estudio de PwC sostiene que los lagos de datos pueden «acabar con los silos de datos».[6]​ En su estudio sobre los lagos de datos observaron que las empresas estaban «empezando a extraer datos y colocarlos para su análisis en un único repositorio basado en Hadoop». Hortonworks, Google, Oracle, Microsoft, Zaloni, Teradata, Impetus Technologies, Cloudera, MongoDB y Amazon Web Services ya usaban el término en 2016.[7]

Ejemplos

Muchas empresas usan servicios de almacenamiento en la nube como Google Cloud Storage o Amazon S3 o un sistema de archivos distribuido como el Hadoop Distributed File System (HDFS).[8]​ Hay un creciente interés académico en el concepto de los lagos de datos. Por ejemplo, Personal DataLake es un nuevo tipo de lago de datos propuesto por la Universidad de Cardiff que pretende gestionar datos a gran escala de los usuarios proporcionando un único punto para recoger, organizar y compartir datos personales.[9]

Un anterior lago de datos (Hadoop 1.0) tenía capacidades limitadas con su procesamiento por lotes MapReduce. Como este era el único paradigma de procesamiento asociado con él, para interactuar con el lago de datos era necesario tener experiencia en Java con el paradigma MapReduce y herramientas a mayor nivel como Apache Pig, Apache Spark y Apache Hive (que también estaban orientadas originalmente al procesamiento por lotes).

Críticas

En junio de 2015, David Needle describió los «llamados lagos de datos» como «una de las maneras más controvertidas para gestionar big data».[10]PwC también señaló en su estudio que no todas las iniciativas para crear lagos de datos son exitosas, citando a Sean Martin, director de tecnología de Cambridge Semantics:

Vemos a clientes creando cementerios de big data, volcándolo todo a un Hadoop Distributed File System (HDFS) y esperando hacer algo con ello por el camino, pero posteriormente pierden la pista de lo que está allí. El principal desafío no es crear un lago de datos, sino aprovechar las oportunidades que proporciona.[6]

Afirman que las empresas que construyen lagos de datos exitosos aumentan gradualmente la madurez de su lago a medida que determinan qué datos y metadatos son importantes para la organización. Otra crítica del término «lago de datos» es que no es útil porque es usado con muchos sentidos diferentes.[11]​ Puede ser usado para referirse, por ejemplo, a: cualquier herramienta o práctica de gestión de datos que no sea un almacén de datos; una tecnología particular para su implementación; un repositorio de datos en bruto; un nodo para la extracción, transformación y carga; o un nodo central para la analítica de datos autoservicio.

Mientras las críticas de los lagos de datos están garantizadas, en muchos casos estas se aplican también a otros proyectos de datos.[12]​ Por ejemplo, la definición de «almacén de datos» también es cambiante, y no todos los esfuerzos para crear almacenes de datos han tenido éxito. En respuesta a varias críticas, McKinsey observó que los lagos de datos deberían ser vistos como un modelo de servicio para proporcionar valor de negocio dentro de la empresa, y no como un mero logro tecnológico.[13]

Referencias

  1. «The growing importance of big data quality». The Data Roundtable (en inglés). Consultado el 7 de noviembre de 2022. 
  2. Campbell, Chris. «Top Five Differences between DataWarehouses and Data Lakes». Blue-Granite.com (en inglés). Archivado desde el original el 15 de septiembre de 2017. Consultado el 7 de noviembre de 2022. 
  3. Olavsrud, Thor (8 de junio de 2017). «3 keys to keep your data lake from becoming a data swamp». CIO (en inglés). Consultado el 7 de noviembre de 2022. 
  4. Woods, Dan (21 de julio de 2011). «Big data requires a big architecture». Forbes (en inglés). Consultado el 7 de noviembre de 2022. 
  5. Dixon, James (14 de octubre de 2010). «Pentaho, Hadoop, and Data Lakes». James Dixon’s Blog (en inglés). James Dixon. Consultado el 7 de noviembre de 2022. «If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.» 
  6. a b Stein, Brian; Morrison, Alan (2014), Data lakes and the promise of unsiloed data, Technology Forecast: Rethinking integration (en inglés), PricewaterhouseCooper, consultado el 7 de noviembre de 2022 .
  7. Weaver, Lance (10 de noviembre de 2016). «Why Companies are Jumping into Data Lakes». blog.equinox.com (en inglés). Consultado el 7 de noviembre de 2022. 
  8. Tuulos, Ville (22 de septiembre de 2015). «Petabyte-Scale Data Pipelines with Docker, Luigi and Elastic Spot Instances». NextRoll (en inglés). Consultado el 7 de noviembre de 2022. 
  9. Walker, Coral; Alrehamy, Hassan (2015). «Personal Data Lake with Data Gravity Pull». 2015 IEEE Fifth International Conference on Big Data and Cloud Computing (en inglés). pp. 160-167. ISBN 978-1-4673-7183-4. doi:10.1109/BDCloud.2015.62. 
  10. Needle, David (10 de junio de 2015). «Hadoop Summit: Wrangling Big Data Requires Novel Tools, Techniques». eWeek (en inglés). Consultado el 7 de noviembre de 2022. «Walter Maguire, chief field technologist at HP's Big Data Business Unit, discussed one of the more controversial ways to manage big data, so-called data lakes.» 
  11. «Are Data Lakes Fake News?». Sonra (en inglés). 8 de agosto de 2017. Consultado el 7 de noviembre de 2022. 
  12. «Experimental Characteristics Study of Data Storage Formats for Data Marts Development within Data Lakes» (en inglés). Consultado el 7 de noviembre de 2022. 
  13. «A smarter way to jump into data lakes». McKinsey (en inglés). 1 de agosto de 2017. Consultado el 7 de noviembre de 2022.