El catálogo de datos se ha convertido rápidamente en un componente central de la gestión de datos moderna. Las organizaciones con implementaciones exitosas de catálogos de datos ven cambios notables en la velocidad y calidad del análisis de la información, además de la facilidad en que las personas pueden realizar análisis de datos al tener la información que necesitan a la mano.
Por el contrario, las organizaciones sin un catálogo de datos a menudo tienen estas preguntas: ¿Qué es un catálogo de datos? ¿Por qué necesitamos un catálogo de datos? ¿Qué hace un catálogo de datos?, aquí abordaremos todos estos puntos.
Contenido
¿Qué es un catálogo de datos?
Un catálogo de datos es una colección de metadatos, combinados con herramientas de gestión y búsqueda de datos, que ayuda a los analistas y otros usuarios de datos a encontrar los datos que necesitan, sirve como un inventario de los datos disponibles y proporciona información para evaluar los datos para determinar si cumplen las necesidades acorde a la intención de uso.
Esta breve definición establece varios puntos sobre los catálogos de datos, pero todos dependen de la capacidad central para proporcionar una colección de metadatos.
Los catálogos de datos se han convertido en el estándar para la gestión de metadatos en la era de los grandes datos y la inteligencia empresarial de autoservicio (self service). Un catálogo de datos se enfoca primero en conjuntos de datos (el inventario de datos disponibles) y conecta esos conjuntos de datos con información rica para informar a las personas que trabajan con datos.
Los conjuntos de datos son los archivos y tablas que los trabajadores de datos necesitan encontrar y acceder. Pueden residir en un lago de datos (data lake), un almacén (data warehouse), un repositorio de datos maestros o cualquier otro recurso de datos compartido. Los metadatos de personas describen a quienes trabajan con datos: consumidores, administradores, expertos en la materia, etc. Los metadatos de búsqueda admiten el etiquetado y las palabras clave para ayudar a las personas a encontrar datos. El procesamiento de metadatos describe las transformaciones y derivaciones que se aplican a medida que los datos se gestionan a lo largo de su ciclo de vida.
¿Qué hace un catálogo de datos?
Un catálogo de datos moderno incluye muchas características y funciones que dependen de la capacidad central de catalogar datos: recopilar los metadatos que identifican y describen el inventario de datos que se pueden compartir. No es práctico intentar catalogar como un esfuerzo manual. El descubrimiento automatizado de conjuntos de datos, tanto para la creación inicial del catálogo como para el descubrimiento continuo de nuevos conjuntos de datos, es esencial. El uso de IA y aprendizaje automático para la recopilación de metadatos, la inferencia semántica y el etiquetado es importante para obtener el máximo valor de la automatización y minimizar el esfuerzo manual.
Con metadatos sólidos como núcleo del catálogo de datos, se habilitan muchas otras características y funciones, las más esenciales incluyen:
- Búsqueda de conjuntos de datos: Incluyendo la posibilidad de realizar búsquedas por palabras clave y términos comerciales. Las capacidades de búsqueda en lenguaje natural son especialmente valiosas para usuarios no técnicos. La clasificación de los resultados de búsqueda por relevancia y por frecuencia de uso son características particularmente útiles y beneficiosas.
- Evaluación de conjuntos de datos: Elegir los conjuntos de datos correctos depende de la capacidad de evaluar su idoneidad para un caso de uso de análisis sin necesidad de descargar o adquirir datos primero. Las funciones de evaluación importantes incluyen capacidades para obtener una vista previa de un conjunto de datos, ver todos los metadatos asociados, ver las calificaciones de los usuarios y ver la información de calidad de los datos.
- Acceso a datos: El camino desde la búsqueda hasta la evaluación y luego al acceso a los datos debe ser una experiencia de usuario fluida con el catálogo conociendo los protocolos de acceso y brindando acceso directamente o interoperando con tecnologías de acceso. Las funciones de acceso a datos incluyen protecciones de acceso para datos confidenciales de seguridad, privacidad y cumplimiento.
Un catálogo de datos sólido proporciona muchas otras capacidades, incluido el soporte para la gestión colaborativa de datos, el seguimiento del uso de datos, las recomendaciones inteligentes de conjuntos de datos y una variedad de características de gobierno de datos.
Beneficios de un catálogo de datos
Los beneficios de la gestión de datos de un catálogo de datos se hacen evidentes al reflexionar sobre el valor de los metadatos y las capacidades que se crean. El mayor valor, sin embargo, a menudo se ve en el impacto sobre las actividades de análisis. Trabajamos en una era de análisis de autoservicio, las organizaciones de TI no pueden proporcionar todos los datos que necesita el negocio debido a que las demandas de personas que analizan datos cada vez son mayores. Pero los analistas de negocios y datos de hoy a menudo trabajan a ciegas, sin visibilidad en los conjuntos de datos que existen, el contenido de esos conjuntos de datos y la calidad y utilidad de cada uno. Pasan demasiado tiempo buscando y comprendiendo datos, a menudo recreando conjuntos de datos que ya existen. Con frecuencia trabajan con conjuntos de datos inadecuados que dan como resultado un análisis inadecuado e incorrecto.
Sin un catálogo, los analistas pierden mucho tiempo buscando los datos y buscando documentación de los mismos, hablando con colegas, confiando en el conocimiento tribal o simplemente trabajando con conjuntos de datos familiares porque los conocen. El proceso está plagado de prueba y error, desperdicio y reelaboración, y búsquedas repetidas de conjuntos de datos que a menudo conducen a trabajar con datos «suficientemente cercanos» a medida que se acaba el tiempo.
Con un catálogo de datos, el analista puede buscar y encontrar datos rápidamente, ver todos los conjuntos de datos disponibles, evaluar y tomar decisiones informadas sobre qué datos usar, y realizar la preparación y el análisis de datos de manera eficiente y con confianza. Es común pasar 80 % del tiempo dedicado a la búsqueda de datos y solo el 20 % al análisis, por lo que teniendo un catálogo de datos se reduce dramáticamente el porcentaje de tiempo dedicado a la búsqueda y aumentando significativamente el tiempo para analizar los datos, por lo que la calidad del análisis mejora sustancialmente y la capacidad de análisis organizacional aumenta sin agregar más analistas.
En resumen, se listan las siguientes ventajas:
- Se incrementa la eficiencia de los datos.
- Se tiene un contexto de datos mejorado.
- Se reduce el riesgo de error.
- Se mejora el análisis de datos mejorado.
Conclusión
Administrar datos en la era de los grandes datos, los lagos de datos y el autoservicio es un desafío. Los catálogos de datos ayudan a estar a la altura de esos desafíos. La administración activa de datos es un elemento central del éxito del catálogo de datos y una práctica fundamental para la gestión de datos moderna.