データレイクとは

データレイクとは、データが元の形式で変更なしに取り込まれるリポジトリです。これが最も効果を発揮するのは、より大きなデータ管理プラットフォームの一部として、既存のデータやツールと緊密に統合されることで、より強力な分析を可能にする場合です。その目標は、セキュリティ、スケーラビリティ、柔軟性を維持しながら、有益な情報やトレンドを発見することにあります。

データレイクの説明

データレイクは、大量のデータを加工前のネイティブ形式で一元的に保持するために用いられ、通常はクラウド上に存在します。低コストのオブジェクトストレージ、オープンフォーマット、クラウドの拡張性を利用することで、データレイクに保存されている大量のデータはさまざまなアプリケーションから活用できます。
  • 非構造化データ (ビッグデータと呼ばれるもの) や半構造化データを含む、あらゆる種類の定性的データが保存可能です。このことは、今日の機械学習や高度な分析のユースケースにとって重要です。
  • ネットワーキングの世界では、インフラストラクチャやエンドポイントのテレメトリが、ベースラインと異常を特定するためのAI/MLモデルやアルゴリズムに入力される記述子または分類子として用いられています。
  • 顧客のインフラストラクチャやエンドポイントクライアントがデータレイクにデータを供給し、ネットワーキングベンダーはデータを保持することで、IT部門によるネットワーク運用を効率化するためのAIベースのツールを提供できます。
Data Lakes Explained

データレイクに保存されるデータの種類

ネットワーキング分野のデータレイクは、ベンダーのクラウド管理ソリューションを使用しているお客様のネットワークテレメトリ (インフラストラクチャとエンドポイント) から構成されます。ベンダーは、データレイクの管理とセキュリティ確保、そしてお客様が使用するツールの作成に責任を負っています。お客様やIT部門は、データレイクに関連する特別な作業を行う必要はありません。クラウド管理ネットワークインフラストラクチャは、管理に関連するデータをクラウドに転送するように設計されているので、ネットワークのパフォーマンスと逸脱のベースラインを判定するためにテレメトリを抽出するのは単純な進化でした。

データレイクには次のような要件があります。

  • 大量のデータ – 機械学習では、多様性が鍵となります。1つのデータセットのためにデータレイクは必要ありません。
  • 機械学習フレームワーク – これには、ライブラリ、データサイエンス、およびその他のツールが含まれ、ネットワーキングベンダーが、分散や原因の分析から結果の予測までのさまざまな分析を行うために使用します。

データレイクのメリット

データレイクはお客様にとって次のようなメリットがあります。

  • 手動でSLEを設定しなくてもサイトのネットワークパフォーマンスの動的ベースラインを入手可能。
  • 自身のデータに基づく比較により、類似のサイトで問題が発生している個所をハイライト。
  • 類似のカスタマーサイトの動作に関するパフォーマンスデータに基づく最適化のヒント。
  • 新しいテクノロジー、インフラストラクチャ、エンドポイントの出現に伴うAI/MLの継続的再トレーニング。

クラウドとオンプレミスのデータレイクの違い

データレイクの属性クラウドオンプレミス
データセキュリティクラウドプロバイダーの専門知識/ベストプラクティスエアギャップと手動構成
メモリオンデマンドより多くのアプライアンスが必要
CPUオンデマンドより多くのアプライアンスが必要
ストレージオンデマンドより多くのアプライアンスが必要
構成に関する推奨事項複数のテナントサイトにわたる有益な情報が入手可能1つのカスタマーのデータ/構成に限定
ベースラインの同類比較各カスタマーのサイトと類似の「ピア」サイトに対して利用可能1つのカスタマーのデータ/サイトに限定
AIOpsモデルの再トレーニングと使用自動化され、クラウド管理GUIから即座に使用可能管理GUIへの手動ソフトウェアアップグレードが必要

さあ、始めましょう