Was ist ein Data Lake?
Ein Data Lake ist ein Daten-Repository, in dem Daten ohne Änderungen in ihrer ursprünglichen Form gespeichert werden. Dies ist besonders hilfreich, wenn es Teil einer größeren Datamanagement-Plattform ist und sich gut in bestehende Daten und Tools integrieren lässt, um leistungsstärkere Analysen durchzuführen. Ziel ist es, Erkenntnisse zu gewinnen und Trends zu ermitteln, während Sicherheit, Skalierbarkeit und Flexibilität gewährleistet bleiben.
Data Lakes erklärt
- Alle Arten qualitativer Daten, einschließlich unstrukturierter (sog. Big Data) und semistrukturierter Daten können gespeichert werden. Ein entscheidendes Kriterium für heutige Anwendungsfälle wie maschinelles Lernen und erweiterte Analysen.
- Stellen Sie sich im Netzwerkbereich vor, dass Infrastruktur- und Endgeräte-Telemetrie als Beschreibungen oder Klassifizierungen genutzt werden, um KI-/ML-Modelle und -Algorithmen zu speisen und Baselines sowie Anomalien zu erkennen.
- Kundenseitig speisen die Infrastruktur- und Endgeräte-Clients den Data Lake. Der Netzwerkanbieter pflegt den Data Lake, um KI-basierte Tools zu bieten, die die IT-Abteilung bei einem effizienteren Betrieb des Netzwerks unterstützen.
Was wird in einem Data Lake gespeichert?
Ein Data Lake im Netzwerkbereich besteht aus Netzwerk-Telemetrie (Infrastruktur und Endgeräte) von jedem Kunden, der die Cloud-Management-Lösung eines Anbieters nutzt. Der Anbieter ist verantwortlich für die Verwaltung und die Sicherheit des Data Lakes sowie für die Entwicklung kundenseitig genutzter Tools. Kunden und IT-Abteilung müssen keine besonderen Aufgaben in Verbindung mit dem Data Lake übernehmen. Netzwerk-Infrastruktur mit Cloud-Management wurde entwickelt, um verwaltungsbezogene Daten an die Cloud weiterzuleiten, so dass es eine einfache Entwicklung war, die Telemetrie zu extrahieren, um grundlegende Informationen über Netzwerkleistung und Abweichungen zu erhalten.
Die Data Lake-Anforderungen umfassen:
- Große Datenmengen – für maschinelles Lernen ist Vielfalt entscheidend. Für einen einzelnen Datenbestand benötigen Sie keinen Data Lake.
- Maschinenlern-Framework: Beinhaltet Bibliotheken, Data Science und andere Tools, die der Netzwerkanbieter nutzt, um verschiedene Analysen von Varianz- bis hin zu Kausalanalysen durchzuführen und Ergebnisse zu prognostizieren.
Vorteile eines Data Lakes
Data Lake-Kunden profitieren unter anderem von folgenden Vorteilen:
- Dynamische Basisdaten zur Netzwerkleistung ihres Standorts ohne manuelle SLE-Definition.
- Vergleiche, die hervorheben, wo ähnliche Standorte vor Problemen stehen, die durch ihre eigenen Daten verursacht werden.
- Optimierungstipps basierend auf den Leistungsdaten eines ähnlichen Kundenstandorts mit ähnlichem Verhalten.
- Kontinuierliche Trainingswiederholungen für KI/ML, wenn neue Technologien, Infrastrukturen und Endgeräte eingesetzt werden.
Wodurch unterscheidet sich eine Cloud von einem lokalen Data Lake?
Data Lake-Attribut | Cloud | On-Premises |
---|---|---|
Datensicherheit | Expertise des Cloud-Anbieters/Best Practices | Air Gapping und manuelle Konfiguration |
Arbeitsspeicher | On demand | Erfordert mehr Geräte |
CPU | On demand | Erfordert mehr Geräte |
Datenspeicher | On demand | Erfordert mehr Geräte |
Konfigurationsempfehlungen | Ermöglicht Erkenntnisse über mehrere Standorte | Begrenzt auf die Daten/Konfiguration eines Kunden |
Grundlegende Branchenvergleiche | Verfügbar für jeden Kundenstandort und ähnliche „Branchen“-Standorte | Begrenzt auf Daten/Standorte eines Kunden |
Erneutes Trainieren und Nutzen von AIOps-Modellen | Antomatisch und sofort über Cloud-verwaltete GUI nutzbar | Erfordert manuelle Software-Upgrades für die Management-GUI |