LLM-Based forecasting of scientific papers impact based on abstract
Rueda Divi, Jaime
Erill, Ivan, tut. (Universitat Autònoma de Barcelona. Departament d'Enginyeria de la Informació i de les Comunicacions)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Títol variant: Previsió de l'impacte d'articles científics basada abstracts mitjançant models de llenguatge de gran escala
Títol variant: Pronóstico del impacto de artículos científicos basado en modelos de lenguaje de gran escala de gran tamaño basado en resúmenes
Data: 2025
Resum: La dinàmica de la indústria editorial científica, especialment sota el model actual d'Accés Obert, ha provocat un debat considerable sobre les barreres econòmiques amb què es troben els autors. Tot i l'aparició de noves iniciatives editorials com les revistes Diamond Open Access, la participació dels autors i la percepció pública continuen sent baixes a causa de l'absència de la supervisió editorial tradicional, que proporciona un referent en termes de qualitat i impacte de la recerca. Aquest estudi explora el potencial d'aprofitar sistemes d'IA generativa com GPT-4o, emprant tècniques avançades de generació d'indicacions com a mecanisme alternatiu per predir l'impacte dels articles científics, a partir del seu resum, ja que és la part d'accés lliure dels treballs acadèmics. Mitjançant el disseny d'una àmplia varietat d'indicacions basades en les tècniques més recents d'enginyeria de prompts, l'estudi avalua la capacitat del model de llenguatge per classificar els articles de recerca en quartils de rellevància predeterminats, d'acord amb els rànquings acadèmics establerts per Scimago. Els primers assaigs mostren un èxit limitat, fet que suggereix que basar-se exclusivament en els resums pot ser insuficient per a una predicció precisa de l'impacte, i convida a una exploració més aprofundida.
Resum: La dinámica de la industria editorial científica, especialmente bajo el modelo actual de Acceso Abierto, ha generado un debate considerable sobre las barreras económicas a las que se enfrentan los autores. A pesar de la aparición de nuevas iniciativas editoriales como las revistas Diamond Open Access, la participación de los autores y la percepción pública siguen siendo bajas debido a la ausencia de una supervisión editorial tradicional, que actúa como referencia para la calidad e impacto de la investigación. Este estudio explora el potencial de aprovechar sistemas de IA generativa como GPT-4o, utilizando técnicas avanzadas de creación de indicaciones (prompting) como un mecanismo alternativo para predecir el impacto de los artículos científicos, basándose en sus resúmenes, ya que constituyen la parte de acceso libre de los trabajos académicos. Mediante el diseño de una variedad diversa de indicaciones basadas en las técnicas más recientes de ingeniería de prompts, el estudio evalúa la capacidad del modelo de lenguaje para clasificar artículos de investigación en cuartiles de relevancia predeterminados, según los rankings académicos establecidos por Scimago. Los ensayos iniciales demuestran un éxito limitado, lo que sugiere que depender únicamente de los resúmenes puede no ser suficiente para una predicción precisa del impacto, lo que invita a una exploración más profunda.
Resum: The dynamics of the scientific publishing industry, particularly under the current Open Access model, have incited substantial debate regarding the financial barriers faced by authors. Despite the availability of new publishing initiatives like Diamond Open Access journals, author engagement and public perception remains low due to the absence of traditional editorial oversight, which provides a benchmark for research quality and impact. This study explores the potential of leveraging Generative AI systems such as GPT-4o, specifically using advanced prompting techniques as an alternative mechanism to predict the impact of scientific articles, based on their abstract as it is the access-free part of scientific papers. By designing a diverse array of prompts based on the latest techniques of prompt engineering, the study evaluates the LLM's ability to categorize research articles into predetermined relevance quartiles, quartiles based on established academic rankings from Scimago. Initial trials demonstrate limited success, suggesting that reliance on abstracts alone may be insufficient for accurate impact forecasting, thus inviting further exploration.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Llengua: Anglès
Titulació: Grau en Enginyeria de Dades [2503758]
Pla d'estudis: Enginyeria de Dades [1394]
Document: Treball final de grau ; Text
Matèria: Enginyeria de Prompts ; Models de Llenguatge de Gran Escala ; Predicció d'articles científics ; Classificació de revistes SCImago ; Resum ; Ingeniería de Prompts ; Modelos de Lenguaje de Gran Escala ; Predicción de artículos científicos ; Clasificación de revistas SCImago ; Resumen ; Prompt Engineering ; Large Language Models ; Scientific papers prediction ; SCImago Journal Rank ; Abstract



12 p, 925.1 KB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de Fi de Grau > Escola d'Enginyeria. TFG

 Registre creat el 2025-07-15, darrera modificació el 2025-10-27



   Favorit i Compartir