データレイクとは
データレイクとは、データが元の形式で変更なしに取り込まれるリポジトリです。これが最も効果を発揮するのは、より大きなデータ管理プラットフォームの一部として、既存のデータやツールと緊密に統合されることで、より強力な分析を可能にする場合です。その目標は、セキュリティ、スケーラビリティ、柔軟性を維持しながら、有益な情報やトレンドを発見することにあります。
データレイクの説明
データレイクは、大量のデータを加工前のネイティブ形式で一元的に保持するために用いられ、通常はクラウド上に存在します。低コストのオブジェクトストレージ、オープンフォーマット、クラウドの拡張性を利用することで、データレイクに保存されている大量のデータはさまざまなアプリケーションから活用できます。
- 非構造化データ (ビッグデータと呼ばれるもの) や半構造化データを含む、あらゆる種類の定性的データが保存可能です。このことは、今日の機械学習や高度な分析のユースケースにとって重要です。
- ネットワーキングの世界では、インフラストラクチャやエンドポイントのテレメトリが、ベースラインと異常を特定するためのAI/MLモデルやアルゴリズムに入力される記述子または分類子として用いられています。
- 顧客のインフラストラクチャやエンドポイントクライアントがデータレイクにデータを供給し、ネットワーキングベンダーはデータを保持することで、IT部門によるネットワーク運用を効率化するためのAIベースのツールを提供できます。
データレイクに保存されるデータの種類
ネットワーキング分野のデータレイクは、ベンダーのクラウド管理ソリューションを使用しているお客様のネットワークテレメトリ (インフラストラクチャとエンドポイント) から構成されます。ベンダーは、データレイクの管理とセキュリティ確保、そしてお客様が使用するツールの作成に責任を負っています。お客様やIT部門は、データレイクに関連する特別な作業を行う必要はありません。クラウド管理ネットワークインフラストラクチャは、管理に関連するデータをクラウドに転送するように設計されているので、ネットワークのパフォーマンスと逸脱のベースラインを判定するためにテレメトリを抽出するのは単純な進化でした。
データレイクには次のような要件があります。
- 大量のデータ – 機械学習では、多様性が鍵となります。1つのデータセットのためにデータレイクは必要ありません。
- 機械学習フレームワーク – これには、ライブラリ、データサイエンス、およびその他のツールが含まれ、ネットワーキングベンダーが、分散や原因の分析から結果の予測までのさまざまな分析を行うために使用します。
データレイクのメリット
データレイクはお客様にとって次のようなメリットがあります。
- 手動でSLEを設定しなくてもサイトのネットワークパフォーマンスの動的ベースラインを入手可能。
- 自身のデータに基づく比較により、類似のサイトで問題が発生している個所をハイライト。
- 類似のカスタマーサイトの動作に関するパフォーマンスデータに基づく最適化のヒント。
- 新しいテクノロジー、インフラストラクチャ、エンドポイントの出現に伴うAI/MLの継続的再トレーニング。
クラウドとオンプレミスのデータレイクの違い
データレイクの属性 | クラウド | オンプレミス |
---|---|---|
データセキュリティ | クラウドプロバイダーの専門知識/ベストプラクティス | エアギャップと手動構成 |
メモリ | オンデマンド | より多くのアプライアンスが必要 |
CPU | オンデマンド | より多くのアプライアンスが必要 |
ストレージ | オンデマンド | より多くのアプライアンスが必要 |
構成に関する推奨事項 | 複数のテナントサイトにわたる有益な情報が入手可能 | 1つのカスタマーのデータ/構成に限定 |
ベースラインの同類比較 | 各カスタマーのサイトと類似の「ピア」サイトに対して利用可能 | 1つのカスタマーのデータ/サイトに限定 |
AIOpsモデルの再トレーニングと使用 | 自動化され、クラウド管理GUIから即座に使用可能 | 管理GUIへの手動ソフトウェアアップグレードが必要 |