Vigilar y defender la calidad de los datos

Spain, Ago 19, 2023

La calidad de los datos es un claro desafío de cualquier organización actual. Porque, a medida que aumenta su volumen, se vuelve más decisivo que esta información sea de calidad y aporte el máximo valor al negocio. Tomar mejores decisiones comerciales y ganar ventaja competitiva depende de ello. 

La propuesta de IBM Data Observability by Databand responde a esta necesaria búsqueda de datos fiables y rigurosos que extraigan más valor de realidades modernas, como la inteligencia artificial a gran escala.

Se trata de una plataforma de software que permite a las organizaciones controlar la calidad de sus datos, procesar sus metadatos de canalización, incluidos registros, información de tiempo de ejecución y perfiles de datos a partir de otras fuentes, como Airflow, Spark y Snowflake. De esta forma, los científicos de datos pueden detectar los cuellos de botella o las anomalías, así como las razones potenciales por las que se producen. 

Es decir, se trata de acceder a una visión completa y profunda de todos los entornos, para adelantarse y reaccionar a cualquier anomalía que pueda afectar a la calidad de los datos.

Según un informe de Statista, el mercado de la observabilidad y calidad de datos es uno de los más pujantes en el sector tecnológico. Las organizaciones quieren controlar y proteger los datos a toda costa y se estima que este mercado supere a escala global los 20.000 millones de dólares en 2024, en gran medida por el impulso a tareas de Inteligencia artificial, automatización y Cloud.

IBM Data Observability de Databand hace frente a este desafío y pone al alcance de las organizaciones tecnología que investiga posibles fallos que afectan a la calidad de sus datos, alertando ante cualquier incidencia que pueda perjudicarla. Además, aporta visibilidad de estos datos -y metadatos- y de su correcto uso, pero también brinda métricas que analizan su calidad de forma continua y personalizada. Para ello, incluye una interfaz de usuario, intuitiva y basada en la web, que monitoriza todos los flujos de datos y alerta de cualquier incidente peligroso.

Así, pone el foco en los servicios de almacenamiento, análisis, visualización y alerta, para que todos los flujos de datos y metadatos, de toda índole, sean correctos y no contengan errores que perjudiquen las tareas cotidianas, incluso con métricas específicas de esta calidad.

Para ello, incluye varios componentes: una biblioteca de Python, la interfaz de línea de comandos que se utiliza para crear los flujos y recopilar los metadatos, un almacén para estos metadatos, una interfaz de usuario web para observar y controlar proyectos y un motor de alertas y detección de anomalías.

Se trata de supervisar los datos en movimiento, registrar y guardar metadatos de las operaciones del código y de su canalización. En otras palabras, cualquier información a nivel de sistema, aplicación, proceso gráfico o nivel de datos relevante para el funcionamiento normal de los científicos de datos, tan en el punto de mira en los últimos tiempos.

 

Topic

Related Insights