데이터 레이크란?

데이터 레이크란 데이터를 수정 없이 원본 상태로 수집하는 리포지토리를 말합니다. 대규모 데이터 관리 플랫폼의 일부로 활용할 때 유용하며, 기존의 데이터 및 툴과 잘 통합되어 더욱 강력한 분석을 지원합니다. 보안, 확장성, 유연성을 유지하면서 인사이트와 동향을 확보하는 것에 목적을 둡니다.

데이터 레이크 설명

데이터 레이크는 중앙의 위치(일반적으로 클라우드)에 기본적인 원시 형태로 많은 양의 데이터를 보관하는 용도로 사용됩니다. 경제적인 개체 스토리지, 개방형 형식, 클라우드 확장성 등을 활용하여 다양한 애플리케이션에서 데이터 레이크에 저장된 풍부한 데이터를 이용할 수 있습니다.
  • 구조화되지 않은 데이터(일반적으로 빅 데이터)와 반구조화된 데이터를 포함한 모든 유형의 질적 데이터 저장이 가능합니다. 오늘날 기계 학습 및 고급 분석 사용 사례에서는 이러한 기능이 매우 중요합니다.
  • 네트워킹 공간에서는 인프라와 엔드포인트 원격 분석이 기준과 이상 징후를 식별하기 위해 AI/ML 모델 및 알고리즘을 공급하는 설명자 또는 분류자로 사용된다고 할 수 있습니다.
  • 고객의 경우 인프라와 엔드포인트 클라이언트가 데이터 레이크에 데이터를 공급하고, 네트워킹 벤더는 이를 유지관리하면서 IT에서 네트워크 운영 효율을 높이는 데 도움이 되는 AI 기반 툴을 제공합니다.
Data Lakes Explained

데이터 레이크에 저장하는 항목

네트워킹 공간에서 데이터 레이크는 벤더의 클라우드 관리 솔루션을 사용하는 각 고객의 네트워크 원격 분석(인프라 및 엔드포인트)으로 구성됩니다. 벤더는 데이터 레이크의 관리 및 보안과 고객 대상 툴의 생성을 담당합니다. 고객과 IT는 데이터 레이크와 관련된 특별 작업을 수행하지 않아도 됩니다. 클라우드 관리형 네트워킹 인프라는 데이터 관련 관리를 클라우드로 이동하도록 설계되어 있기에 네트워크의 성능과 편차를 기준으로 원격 분석을 쉽게 추출할 수 있었습니다.

데이터 레이크의 요건은 다음과 같습니다.

  • 많은 양의 데이터 – 실제로 기계 학습에서 다양성이 중요합니다. 단일 데이터 세트를 위한 데이터 레이크는 필요하지 않습니다.
  • 기계 학습 프레임워크 – 네트워킹 벤더가 변화부터 일반적인 분석, 성과 예측에 이르기까지 다양한 유형의 분석을 수행할 때 사용하는 라이브러리, 데이터 과학 및 기타 툴이 포함됩니다.

데이터 레이크의 이점

데이터 레이크 고객이 얻는 이점은 다음과 같습니다.

  • 사이트의 네트워크 성능에 대한 동적 기준(SLE를 수동으로 설정할 필요 없음)
  • 자체 데이터를 바탕으로 문제가 발생한 유사 사이트를 표시하는 비교
  • 유사한 고객 사이트의 행동에 대한 성능 데이터를 바탕으로 한 최적화 팁
  • 새로운 기술, 인프라, 엔드포인트가 등장하는 상황에서 지속적으로 AI/ML 재교육

클라우드 데이터 레이크와 온프레미스 데이터 레이크의 차이

데이터 레이크 속성클라우드온프레미스
데이터 보안클라우드 공급자 전문성 / 성공 사례에어 갭 및 수동 구성
메모리온디맨드더 많은 어플라이언스 필요
CPU온디맨드더 많은 어플라이언스 필요
스토리지온디맨드더 많은 어플라이언스 필요
구성 권장 사항멀티 테넌트 사이트에서 인사이트 확보 가능단일 고객의 데이터 / 구성으로 제한
기준 피어 비교각 고객의 사이트 및 유사한 ‘피어’ 사이트에 이용 가능단일 고객의 데이터 / 사이트로 제한
AIOps 모델의 재교육 및 사용클라우드 관리형 GUI에서 자동으로 즉시 사용 가능관리 GUI로 수동 소프트웨어 업그레이드 필요

시작할 준비가 되셨습니까?