Open Data for Machine Learning
Fernández Alvarez, Raul
Giner Miguelez, Joan, dir. (Universitat Autònoma de Barcelona. Departament d'Enginyeria de la Informació i de les Comunicacions)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Títol variant: Dades obertes per machine learning
Títol variant: Datos abiertos para Machine Learning
Data: 2023
Resum: This work explores the potential of large language models (LLMs), specifically GPT-3. 5, in improving the quality of data in Open Data portals. Recent studies in the machine learning (ML) community and legislative initiatives like the European AI ACT emphasize the need to document the datasets used to train ML models across various dimensions to ensure their fairness and safety. These initiatives highlight the importance of documenting the data creation context, as well as the teams and infrastructure involved in data collection and annotation. In the case of Open Data portals, metadata standards like DCAT do not provide support for annotating this information, and if present, it can only be found in the accompanying documentation of the dataset in natural language format. This work explores the use of LLMs to extract this information from the documentation of datasets in a structured manner. To this end, the types of susceptible documentation present for the proposed method have been identified, and different prompting strategies have been explored to optimize the use of LLMs. The results of this study demonstrate good performance in generating structured documentation of data present in Open Data portals, such as Data Management Plans (DMPs), and open up possibilities for developing tools and methods to improve the quality of data in these portals.
Resum: Aquest treball explora el potencial dels grans models de llenguatge (LLMs), concretament el GPT-3. 5, en millorar la qualitat de les dades en portals de dades obertes. Estudis recents a la comunitat de Machine Learning (ML) així com Iniciatives Legislatives com l'European AI ACT, apunten a la necessitat de documentar els datasets usat per entrenar models de ML en un seguit de dimensions per garantir la seva equitat i seguretat. En aquestes iniciatives s'hi destaca la importa de documentar el context de creació de dades, així com els equips i infraestructura que han participat en la col·lecció i anotació de dades. En el cas dels Open Data portals, els estàndard de metadades com DCAT, no ofereixen suport per anotar d'aquesta informació i aquesta, en cas de ser-hi, només la podem trobar a la documentació adjunta dels dataset en format de text natural. En aquest treball s'explora l'ús de LLM per extreure de forma estructurada d'aquesta informació de la documentació dels datasets. Amb aquest fi, s'ha identificat els tipus de documentació presents susceptibles de funcionar amb el mètode proposat i s'ha explorat diferents estratègies de prompting per optimitzar l'ús LLM. Els resultats d'aquest estudi mostren bon resultat en format de documentació estructurada de dades presents als Open Data portals, com el Data Mangement Plans (DMP), i obren possibilitat a desenvolupar eines i mètodes per millorar la qualitat de les dades en aquests portals.
Resum: Este trabajo explora el potencial de los grandes modelos de lenguaje (LLMs), específicamente GPT-3. 5, para mejorar la calidad de los datos en los Open Data portals. Estudios recientes en la comunidad de Machine Learning (ML) y iniciativas legislativas como la Ley de IA de Europa enfatizan la necesidad de documentar los conjuntos de datos utilizados para entrenar modelos de ML en diversas dimensiones para garantizar su equidad y seguridad. Estas iniciativas resaltan la importancia de documentar el contexto de creación de datos, así como los equipos e infraestructura involucrados en la recopilación y anotación de datos. En el caso de los Open Data portals, los estándares de metadatos como DCAT no brindan soporte para anotar esta información, y si está presente, solo se puede encontrar en la documentación adjunta del conjunto de datos en formato de lenguaje natural.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Llengua: Anglès
Titulació: Grau en Enginyeria Informàtica [2502441]
Pla d'estudis: Enginyeria Informàtica [958]
Document: Treball final de grau ; Text
Àrea temàtica: Menció Tecnologies de la Informació
Matèria: Grans Models de Llenguatge ; Open Data portals ; Metadades ; Data Management Plan (DMP) ; User Guide ; Prompting Strategies ; Extracció de Dades ; Grandes Modelos de Lenguaje ; Metadatos ; Promption Strategies ; Extracción de Datos ; Large Language Models ; Metadata ; Data Extraction



10 p, 624.0 KB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de Fi de Grau > Escola d'Enginyeria. TFG

 Registre creat el 2023-07-18, darrera modificació el 2023-07-23



   Favorit i Compartir