Web of Science: 8 citas, Scopus: 7 citas, Google Scholar: citas,
Evaluating the Language Abilities of Large Language Models vs. Humans : Three Caveats
Leivada, Evelina (Universitat Autònoma de Barcelona. Departament de Filologia Catalana)
Dentella, Vittoria (Universitat Rovira i Virgili. Departament d'Estudis Anglesos i Alemanys)
Günther, Fritz (Humboldt-Universitat zu Berlin. Institut für Psychologie)

Fecha: 2024
Descripción: 12 pàg.
Resumen: We identify and analyze three caveats that may arise when analyzing the linguistic abilities of Large Language Models. The problem of unlicensed generalizations refers to the danger of interpreting performance in one task as predictive of the models' overall capabilities, based on the assumption that because a specific task performance is indicative of certain underlying capabilities in humans, the same association holds for models. The human-like paradox refers to the problem of lacking human comparisons, while at the same time attributing human-like abilities to the models. Last, the problem of double standards refers to the use of tasks and methodologies that either cannot be applied to humans or they are evaluated differently in models vs. humans. While we recognize the impressive linguistic abilities of LLMs, we conclude that specific claims about the models' human-likeness in the grammatical domain are premature.
Derechos: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, fins i tot amb finalitats comercials, sempre i quan es reconegui l'autoria de l'obra original. Creative Commons
Lengua: Anglès
Documento: Article ; recerca ; Versió publicada
Publicado en: Biolinguistics, Vol. 18 (2024) , p. e14391, ISSN 1450-3417

DOI: 10.5964/bioling.14391


12 p, 299.8 KB

El registro aparece en las colecciones:
Artículos > Artículos de investigación
Artículos > Artículos publicados

 Registro creado el 2025-02-19, última modificación el 2025-02-21



   Favorit i Compartir