¿Qué es un lago de datos?

Un lago de datos es un repositorio donde se incorporan datos en su forma original, sin alteraciones. Resulta más útil cuando forma parte de una plataforma de gestión de datos más grande y puede integrarse bien con los datos y herramientas existentes para proporcionar mejores análisis. Su objetivo es ayudar a descubrir información y tendencias sin dejar de ser seguro, escalable y flexible.

Los lagos de datos explicados

Un lago de datos se utiliza para almacenar una gran cantidad de datos en su formato nativo, sin procesar, en una ubicación central, normalmente la nube. Mediante el uso de un almacenamiento de objetos de bajo coste, los formatos abiertos y la escalabilidad de la nube, son muchas las aplicaciones que pueden aprovechar la gran cantidad de datos contenidos en un lago de datos.
  • Se pueden almacenar todo tipo de datos cuantitativos, incluidos los no estructurados (a menudo llamados «Big Data») y los semiestructurados, lo cual es fundamental para los casos de uso actuales de aprendizaje automático y análisis avanzado.
  • En el ámbito de las redes, pensemos en la infraestructura y la telemetría de terminal que se utilizan como descriptores o clasificadores para alimentar los modelos y algoritmos de inteligencia artificial/aprendizaje automático para identificar valores de referencia y anomalías.
  • Como cliente, tu infraestructura y los clientes de punto de acceso son los que alimentan el lago de datos, mientras que tu proveedor de red lo mantiene para ofrecerte herramientas basadas en IA que ayudan a la TI a operar tu red de forma más eficiente.
Data Lakes Explained

¿Qué se almacena en un lago de datos?

En el ámbito de las redes, un lago de datos se compone de la telemetría de red (infraestructura y terminales) de cada cliente que utiliza una solución de gestión de la nube. El proveedor es el responsable de gestionar y proteger el lago de datos y de crear herramientas orientadas al cliente. Los clientes y el departamento de TI no tienen que realizar tareas especiales relacionadas con el lago de datos. La infraestructura de red gestionada en la nube está diseñada para reenviar datos relacionados con la gestión a la nube, por lo que extraer la telemetría para establecer las referencias de rendimiento y las desviaciones de una red supone una progresión simple.

Algunos de los requisitos de los lagos de datos son los siguientes:

  • Muchos datos: para el aprendizaje automático, la variedad es la clave. No necesitas un lago de datos para un solo conjunto de datos.
  • Un marco de aprendizaje automático: esto incluye bibliotecas, data science y otras herramientas utilizadas por los proveedores de redes para realizar distintos tipos de análisis que abarcan desde el análisis de divergencias al análisis causal o la predicción de resultados.

Beneficios de los lagos de datos

Algunos de los beneficios de los lagos de datos para el cliente son los siguientes:

  • Referencias dinámicas para el rendimiento de la red de su sitio sin configurar SLE manualmente.
  • Comparaciones que resaltan los puntos donde sitios similares están experimentando problemas en función de sus propios datos.
  • Sugerencias de optimización basadas en los datos de rendimiento del comportamiento de un sitio de cliente similar.
  • Un reentrenamiento constante de la inteligencia artificial/aprendizaje automático, a medida que surgen nuevas tecnologías, infraestructuras y terminales.

¿En qué se diferencian los lagos de datos locales de los de la nube?

Atributo del lago de datosNubeLocal
Seguridad de datosMejores prácticas / experiencia del proveedor de nubeAislamiento y configuración manual
MemoriaBajo demandaRequiere más dispositivos
CPUBajo demandaRequiere más dispositivos
AlmacenamientoBajo demandaRequiere más dispositivos
Recomendaciones de configuraciónPermite obtener información de sitios multiinquilinoLimitado a los datos / configuración de un solo cliente
Comparación de valores de referencia de igualesDisponible para todos los sitios del cliente y sitios similaresLimitado a los datos / sitios de un solo cliente
Reentrenamiento y uso de modelos de AIOpsAutomático y utilizable al instante desde la GUI gestionada en la nubeRequiere actualizaciones de software manuales para la gestión de la GUI

¿Listo para empezar?