DataWash : an advanced snowflake data quality tool powered by Snowpark
Gallardo Mírez, Gerard
Franco Puntes, Daniel, dir. (Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Títol variant: DataWash : una eina avançada de qualitat de dades de Snowflake impulsada per Snowpark
Títol variant: DataWash : una herramienta avanzada de calidad de datos de Snowflake potenciada por Snowpark
Data: 2023
Resum: La creixent necessitat de precisió i completesa de dades en les organitzacions actuals ha posat en relleu la importància de la gestió de la qualitat de les dades. Per a fer front a aquesta necessitat, DataWash ha sorgit com una eina avançada de qualitat de dades impulsada per Snowpark que proporciona a les organitzacions una solució integral per millorar la qualitat de les seves dades a Snowflake. Aquesta eina proporciona una execució per lots programada i capacitats d'anàlisi ad hoc / sota demanda, generant un informe de Power BI que permet realitzar una visualització de les mètriques que reflexen la qualitat de les dades. El conjunt de mòduls proporcionat per DataWash permet gestionar una àmplia gamma de problemes relacionats amb la qualitat de les dades, com ara la duplicació de dades, inconsistències i el compliment dels estàndards de dades. Per tant, aquesta tesi de llicenciatura té com a objectiu desenvolupar DataWash com una eina avançada de qualitat de dades amb la finalitat d'ajudar les organitzacions a millorar la precisió i fiabilitat de les seves dades, explorant les seves capacitats i rendibilitat, avaluant el seu rendiment utilitzant conjunts de dades del món real i comparant-la amb les principals eines de qualitat de dades del mercat.
Resum: La creciente necesidad de precisión e integridad de los datos en las organizaciones actuales ha puesto de relieve la importancia de la gestión de la calidad de los datos. Para hacer frente a esta necesidad, DataWash ha surgido como una herramienta avanzada de calidad de datos impulsada por Snowpark que proporciona a las organizaciones una solución integral para mejorar la calidad de sus datos en Snowflake. Esta herramienta proporciona ejecución programada por lotes y capacidades de análisis ad hoc / bajo demanda, generando un informe Power BI para una fácil visualización de las métricas de calidad de datos. El conjunto de módulos proporcionados por DataWash puede manejar una amplia gama de problemas de calidad de datos, tales como la duplicación de datos, inconsistencias, y el cumplimiento de las normas de datos. Por lo tanto, esta tesis de licenciatura tiene como objetivo desarrollar DataWash como una herramienta avanzada de calidad de datos con el fin de ayudar a las organizaciones a mejorar la exactitud y fiabilidad de sus datos mediante la exploración de sus capacidades y rentabilidad, la evaluación de su rendimiento utilizando conjuntos de datos del mundo real y su comparación con las principales herramientas de calidad de datos del mercado.
Resum: The increasing need for data accuracy and completeness in today's organizations has highlighted the importance of data quality management. To address this need, DataWash has emerged as an advanced data quality tool powered by Snowpark that provides organizations with a comprehensive solution for improving the quality of their data in Snowflake. This tool provides scheduled batch execution and ad hoc / on-demand analysis capabilities, generating a Power BI report for easy visualization of data quality metrics. The suite of modules provided by DataWash can handle a wide range of data quality issues, such as data duplication, inconsistencies, and compliance with data standards. In essence, this bachelor's thesis aims to develop DataWash as an advanced data quality tool in order to help organizations improve the accuracy and reliability of their data by exploring its capabilities and cost-effectiveness, evaluating its performance using real-world datasets, and benchmarking it against leading data quality tools on the market.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Llengua: Anglès
Titulació: Grau en Enginyeria de Dades [2503758]
Pla d'estudis: Enginyeria de Dades [1394]
Document: Treball final de grau ; Text
Matèria: Qualitat de les dades ; Snowflake ; Snowpark ; Neteja de dades ; Perfil de dades ; Validació de dades ; Enriquiment de dades ; Streamlit ; Power BI ; Integració de dades ; Governança de dades ; Visualització de dades ; Calidad de datos ; Limpieza de datos ; Perfilado de datos ; Validación de datos ; Enriquecimiento de datos ; Integración de datos ; Gobernanza de datos ; Visualización de datos ; Data Quality ; Data Cleaning ; Data Profiling ; Data Validation ; Data Enrichment ; Data Integration ; Data Governance ; Data Visualisation



15 p, 1.4 MB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de Fi de Grau > Escola d'Enginyeria. TFG

 Registre creat el 2023-07-28, darrera modificació el 2023-09-01



   Favorit i Compartir