
Cos’è un data lake?
Un data lake è un repository in cui vengono acquisiti i dati nella loro forma originale, senza alterazioni. È particolarmente utile quando fa parte di una piattaforma di gestione dei dati più ampia e si integra bene con i dati e i tool esistenti per analisi più avanzate. L’obiettivo è scoprire informazioni e tendenze, senza rinunciare a sicurezza, scalabilità e flessibilità.
Definizione di data lake
- È possibile archiviare tutti i tipi di dati qualitativi, tra cui quelli non strutturati (spesso definiti come big data) e semi strutturati, aspetto fondamentale per gli attuali casi d’uso di machine learning e di analisi avanzata.
- In ambito networking, per identificare baseline e anomalie, basta pensare all’infrastruttura e alla telemetria degli endpoint utilizzate come descrittori o classificatori che alimentano i modelli di AI/ML e gli algoritmi.
- Come cliente, la tua infrastruttura e i client endpoint alimentano il data lake e il tuo fornitore di rete lo mantiene per erogare tool basati su AI che supportano l’IT per gestire la rete in modo più efficiente.

Cosa viene archiviato in un data lake?
In ambito networking un data lake è costituito dalla telemetria di rete (infrastruttura ed endpoint) di ciascun cliente che utilizza una soluzione di gestione del cloud di un fornitore. Il fornitore è responsabile della gestione, della protezione del data lake e della creazione di tool rivolti ai clienti. I clienti e i responsabili IT non devono svolgere particolari attività relative al data lake. L’infrastruttura di rete gestita dal cloud è stata progettata per inoltrare al cloud i dati relativi alla gestione, era quindi di una semplice progressione per definire le prestazioni e le deviazioni di una rete.
I requisiti del data lake comprendono:
- grandi quantità di dati: infatti, per il machine learning la varietà è fondamentale Per un singolo set di dati, non è necessario un data lake.
- framework di machine learning: comprende librerie, data science e altri tool usati dai fornitori di networking per eseguire vari tipi di analisi, dall’analisi della varianza a quella causale, fino alla previsione dei risultati.
Vantaggi di un data lake
I vantaggi di un data lake per i clienti comprendono:
- baseline dinamiche per le prestazioni di rete del sito senza dover impostare manualmente le SLE
- confronti che evidenziano se siti simili riscontrano problemi basati sui rispettivi dati
- consigli di ottimizzazione basati sui dati delle prestazioni del comportamento di un sito simile di un cliente
- un riaddestramento costante di AI/ML con l’emergere di nuova tecnologia, infrastruttura ed endpoint.
Quali sono le differenze tra data lake su cloud e on-premise?
Attributo del data lake | Cloud | On-premise |
---|---|---|
Sicurezza dei dati | Competenza/best practice del provider di cloud | Air gap e configurazione manuale |
Memoria | On demand | Richiede più appliance |
CPU | On demand | Richiede più appliance |
Storage | On demand | Richiede più appliance |
Consigli per la configurazione | Possibilità di ottenere informazioni tra più siti tenant | Dati/configurazione limitati a un solo cliente |
Confronti tra siti simili di riferimento | Disponibile per ogni sito del cliente e siti “peer” simili | Dati/siti limitati a un solo cliente |
Riaddestramento e uso di modelli AIOps | Automatico e di utilizzo immediato dalla GUI gestita dal cloud | Richiede upgrade manuali del software alla GUI di gestione |