Cos’è un data lake?

Un data lake è un repository in cui vengono acquisiti i dati nella loro forma originale, senza alterazioni. È particolarmente utile quando fa parte di una piattaforma di gestione dei dati più ampia e si integra bene con i dati e i tool esistenti per analisi più avanzate. L’obiettivo è scoprire informazioni e tendenze, senza rinunciare a sicurezza, scalabilità e flessibilità.

Definizione di data lake

I data lake vengono usati per contenere in una posizione centrale, generalmente nel cloud, grandi quantità di dati in formato nativo, non elaborato. Utilizzando uno storage a oggetti a costi contenuti, formati aperti e la scalabilità del cloud, una serie di applicazioni possono trarre vantaggio dalla ricchezza dei dati contenuti in un data lake.
  • È possibile archiviare tutti i tipi di dati qualitativi, tra cui quelli non strutturati (spesso definiti come big data) e semi strutturati, aspetto fondamentale per gli attuali casi d’uso di machine learning e di analisi avanzata.
  • In ambito networking, per identificare baseline e anomalie, basta pensare all’infrastruttura e alla telemetria degli endpoint utilizzate come descrittori o classificatori che alimentano i modelli di AI/ML e gli algoritmi.
  • Come cliente, la tua infrastruttura e i client endpoint alimentano il data lake e il tuo fornitore di rete lo mantiene per erogare tool basati su AI che supportano l’IT per gestire la rete in modo più efficiente.
Data Lakes Explained

Cosa viene archiviato in un data lake?

In ambito networking un data lake è costituito dalla telemetria di rete (infrastruttura ed endpoint) di ciascun cliente che utilizza una soluzione di gestione del cloud di un fornitore. Il fornitore è responsabile della gestione, della protezione del data lake e della creazione di tool rivolti ai clienti. I clienti e i responsabili IT non devono svolgere particolari attività relative al data lake. L’infrastruttura di rete gestita dal cloud è stata progettata per inoltrare al cloud i dati relativi alla gestione, era quindi di una semplice progressione per definire le prestazioni e le deviazioni di una rete.

I requisiti del data lake comprendono:

  • grandi quantità di dati: infatti, per il machine learning la varietà è fondamentale Per un singolo set di dati, non è necessario un data lake.
  • framework di machine learning: comprende librerie, data science e altri tool usati dai fornitori di networking per eseguire vari tipi di analisi, dall’analisi della varianza a quella causale, fino alla previsione dei risultati.

Vantaggi di un data lake

I vantaggi di un data lake per i clienti comprendono:

  • baseline dinamiche per le prestazioni di rete del sito senza dover impostare manualmente le SLE
  • confronti che evidenziano se siti simili riscontrano problemi basati sui rispettivi dati
  • consigli di ottimizzazione basati sui dati delle prestazioni del comportamento di un sito simile di un cliente
  • un riaddestramento costante di AI/ML con l’emergere di nuova tecnologia, infrastruttura ed endpoint.

Quali sono le differenze tra data lake su cloud e on-premise?

Attributo del data lakeCloudOn-premise
Sicurezza dei datiCompetenza/best practice del provider di cloudAir gap e configurazione manuale
MemoriaOn demandRichiede più appliance
CPUOn demandRichiede più appliance
StorageOn demandRichiede più appliance
Consigli per la configurazionePossibilità di ottenere informazioni tra più siti tenantDati/configurazione limitati a un solo cliente
Confronti tra siti simili di riferimentoDisponibile per ogni sito del cliente e siti “peer” similiDati/siti limitati a un solo cliente
Riaddestramento e uso di modelli AIOpsAutomatico e di utilizzo immediato dalla GUI gestita dal cloudRichiede upgrade manuali del software alla GUI di gestione

Pronto a cominciare?