Data Lake y Data Warehouse ¿Qué son?
Un «Data Lake» o lago de datos es un repositorio donde guardamos datos, ya sean estructurados o no estructurados, en bruto, sin ninguna organización ni tratamiento previo, para su análisis posterior.
Un «Data Warehouse» o almacén de datos, es un repositorio donde guardamos datos de una forma ordenada, con un ámbito bien definido, con una preparación previa, listos para ser consumidos por usuarios de negocio u otras aplicaciones.
El rol que gestiona este tipo de tecnología suele ser el ingeniero de datos ayudado por un arquitecto de datos, que se encarga de la arquitectura global.
Entonces, ¿qué es lo que necesito?
La mejor forma de tomar una decisión entre cual de estas dos tecnologías implementar sería preguntarnos quienes son las personas (o sistemas) que van a hacer uso de los datos.
Si lo que queremos es que un usuario con muy poco conocimiento tecnológico use los datos, lo mejor es dárselo de forma ordenada y estructurada, para que pueda incluso trabajar con ellos en un Excel o podamos conectarlos a una aplicación de visualización de datos como Tableau. Este sería el caso de un Data Warehouse.
Por el contrario, si lo que queremos es analizar de forma no estándar una variedad de datos amplios, estructurados y no estructurados, por personal experto, aquí nos decantaríamos por un Data Lake. Esto es lo que usarían en mayor medida roles como los científicos de datos.
Es más, un data warehouse podría llegar a nutrirse de los datos existentes en un data lake, por lo tanto no son mutuamente exclusivos.
¿Qué tecnología uso?
Como ejemplo de Data Lake podríamos tener el sistema de archivos distribuidos de Apache Hadoop, u otros comerciales como son Azure Data Lake o Amazon S3 entre otros.
Para un data Warehouse nos decantaríamos más por soluciones de bases de datos estructurados como SQL Server de Microsoft, MySQL Server de Oracle, o Amazon RDS entre otros.