Tecnologie

 

Data lake

La diffusione dei Big Data ha portato una evoluzione naturale verso i Data Lake. Sidea Group, con il team specializzato di data scientists, developers e marketing specialists, offre servizi di progettazione e sviluppo basato su Data Lake con l’obiettivo di fornire una più profonda analisi dei dati per le strategie data-driven.

Un Data Lake è un luogo destinato allo storage, all’analisi e alla correlazione di dati, strutturati e non, in formato originale e provenienti da diverse fonte di dati (CRM, ERP, informazioni derivanti da macchine in produzione o dispositivi IoT).

Il termine “lake” va proprio ad identificare un flusso di dati al suo stato e formare appunto un “lago di dati”. Offrono una vista dei dati non elaborata per uno scopo specifico.

La principale caratteristica di un data lake è di fornire la possibilità di recuperare e organizzare il dato a seconda del tipo di analisi che si vuole effettuare. Rappresenta una semplificazione rispetto a un Data Warehouse che richiede un modellamento del dato prima dell’effettiva immagazzinazione.

Vantaggi di un data lake:

  • Non necessita di una strutturazione dei dati, anzi accoglie dati strutturati, semi strutturati e destrutturati.
  • I dati sono acquisiti nel formato nativo.
  • Un data lake consente di configurare e riconfigurare facilmente nuovi modelli e query per le analisi.
  • Permette di interrogare i dati da un’ampia varietà di tool differenti.
  • Costi di archiviazione ridotti grazie alla sua struttura non definita, a differenza di un data warehouse dove occorre gestire database rigidi con conseguente impiego di persone altamente specializzate.
  • Notevole riduzione del time-to-market dovuta alla mancanza di fasi di progettazione di ampliamento e consolidamento dei dati.

Le fasi di gestione di un data lake sono:

  1. Data Ingestion e Storage: capacità di acquisire dati in batch o real time e conservare e accedere a dati grezzi, semi-strutturati o strutturati nel loro formato originale.
  2. Data Processing: capacità di lavorare sui dati non strutturati così da renderli pronti per l’analisi con procedure standard e di ingegnerizzare nuove soluzioni di estrazione di valore dei dati.
  3. Data Analysis: capacità di creare appositi modelli per l’estrazione di informazioni dai dati, sia in tempo reale che su base periodica regolare.
  4. Data Integration: capacità di collegare la piattaforma di Data Lake ad applicativi che consentono l’interrogazione ed estrazione dei dati in formati specifici.
logo Data lake