Próximo reto de la empresa moderna: mejorar la calidad de sus datos

Spain, Sep 13, 2023

La mayoría de los ingenieros de datos utilizan diversas herramientas para ejecutar sus pipelines, o conjunto de procesos interconectados que permiten realizar una tarea concreta. Cada etapa de este proceso suele operar de forma secuencial, una detrás de otra. Cuando se trabaja con diferentes sistemas (Airflow, Python, Spark, Snowflake, BigQuery, etc.), es preciso disponer de visibilidad total y profunda de los flujos de datos y niveles de infraestructura que intervienen, para que estos procesos sean fiables y permitan detectar problemas que afecten a los Acuerdos de Nivel de Servicio (SLA) y a la calidad de los datos.

La tecnología ha resuelto este problema con soluciones como IBM® Data Observability by Databand, que rastrea, alerta y ayuda a investigar cualquier posible incidencia que amenace la integridad, calidad y facilidad de acceso a los datos. Esta capacidad se logra con una recopilación del perfil y uso de cada grupo de datos, así como con métricas de calidad personalizadas, que se envían a un sistema de seguimiento, incluidos sus metadatos.

El resultado es una visión detallada de todas las etapas que superan los datos de una organización y facilita la identificación de problemas para mejorar tanto la productividad de la información como de todo el equipo implicado.

Databand incorpora una interfaz de usuario basada en web, muy intuitiva y funcional, que monitoriza todos los datos y alerta, en caso de registrar incidencias, además de incorporar herramientas de depuración y gestión de su ciclo de vida. Además, contiene servicios para almacenar, analizar, visualizar y alertar sobre los metadatos de cada proceso, ofreciendo información sobre la ejecución del mismo, duración de las tareas y errores, así como otras métricas de calidad que ayudan a los responsables de sistemas de información a mantener su infraestructura y mejorar sus prestaciones.

La solución incluye además otros componentes, como una biblioteca de Python y la CLI que los ingenieros utilizan para crear sus procesos y recopilar metadatos de las ejecuciones, un almacén de metadatos que guarda las definiciones de cada proceso y los metadatos que permiten que el sistema ejecute, versione y reproduzca estos procesos.

Estas definiciones incluyen rutas de entrada y salida, lógica de código (tareas), configuraciones de entorno y otros elementos necesarios para su ejecución, como interfaz de usuario web, para monitorizar y observar todos los proyectos y un motor de alertas y detección de anomalías.

Los ingenieros no deberían tener que preocuparse tanto por el ruido circundante, como pasar datos entre tareas de la canalización o ejecutar tareas en diferentes motores de cómputo. Esto ralentiza la agilidad del equipo al requerir más código redundante y sobrecarga. IBM® Data Observability by Databand resuelve este y otros problemas para crear un marco ágil para el desarrollo de canalizaciones de datos, su gobierno y gestión.

 

Topic

Related Insights