Skip to content
¡LO LOGRAMOS!, somos parte del cambio. Ahora iNBest está certificado bajo la norma NMX 025.

    Qué es data lake, para qué sirve y cómo funciona en AWS

    Qué es data lake, para qué sirve y cómo funciona en AWS

    Data lake te permite almacenar toda tu información estructurada y no estructurada de manera centralizada.

     

    Además es posible ejecutar diferentes tipos de análisis de datos como consultas SQL, análisis de big data, búsqueda de texto completo, análisis en tiempo real y aprendizaje automático para toma de decisiones.

     

    ¿Para qué sirve un Data Lake?

     

    Permite identificar y actuar ante oportunidades de crecimiento para los negocios más rápido gracias a que permite:

     

    • Atraer y retener clientes.
    • Impulsar la productividad.
    • Mantenimiento proactivo de dispositivos.
    • Hacer decisiones basadas en informes reales.

     

     

    Diferencias entre Data Lake y Data warehouse

     

    Un Data warehouse es una base de datos optimizada para analizar datos relacionales provenientes de sistemas transaccionales y aplicaciones de líneas de negocio. La estructura de los datos y esquema están definidos para incrementar la rapidez de bases SQL.

    Lo que se traduce en mejor análisis y operaciones.

     Data Lake iNBest AWS México

    Un Data Lake es diferente, ya que almacena datos relacionales de aplicaciones de negocio y datos no relacionales de aplicaciones moviles, dispositivos IoT y social media.  Su estructura no está aún definida cuando los datos son capturados, esto significa que es innecesario tener definido un diseño o preguntas que sean posibles de responder con la información.

     

    Actualmente las empresas están migrando de Data warehouse a Data lake ya que ofrece la habilitación de diversos algortimos, uso de data science y nuevos modelos de información.

     

    Characteristics

    Data Warehouse

    Data Lake

    Data

    Relational from transactional systems, operational databases, and line of business applications

    Non-relational and relational from IoT devices, web sites, mobile apps, social media, and corporate applications

    Schema

    Designed prior to the DW implementation (schema-on-write)

    Written at the time of analysis (schema-on-read)

    Price/Performance

    Fastest query results using higher cost storage

    Query results getting faster using low-cost storage

    Data Quality

    Highly curated data that serves as the central version of the truth

    Any data that may or may not be curated (ie. raw data)

    Users

    Business analysts

    Data scientists, Data developers, and Business analysts (using curated data)

    Analytics

    Batch reporting, BI and visualizations

    Machine Learning, Predictive analytics, data discovery and profiling

     

     

    Herramientas de AWS para Data Lake

     

    • Storage en S3: Para crear la VPC donde vivirá el Data Lake
    • AWS Glue : Para catalogar los datos
    • Amazon Athena: Para peticiones de datos directo en S3
    • AWS Lambda: Para automatización de peticiones.
    • AWS Congnito: Para la creación de credenciales temporales.
    • AWS Kinesis: Para el procesamiento de datos en streaming
    • Amazon Elastic search: Para operar y escalar los consumos rápidamente.
    • AWS Redshift: Complemento data warehouse.
    • Amazon Quicksight: Para visualizar el análisis de datos.

     

    Ejemplo de arquitectura:

     Arquitectura Data Lake iNBest AWS México

     

    ¿Qué es lo que debe permitir Data Lake?

     

    • Recopilación y almacenamiento de cualquier tipo de datos a cualquier escala y a bajo costo.
    • Proteger todos los datos con un repostitorio central.
    • Búsqueda de datos relevantes.
    • Modelos de gestión para gobernar los datos desde la ingesta, el almacenamiento, procesamiento y consumo.
    • Realizar nuevos tipos de análisis de manera expedita.
    • La integración de nuevas tecnologías incluyendo modelos de inteligencia artificial.

     

     solicita consultoría gratuita cloud computing