| Additional title: |
Procés Multietapa de Filtratge Heurístic per a la Depuració d'un Corpus Jurídic Espanyol per al Processament del Llenguatge Natural |
| Additional title: |
Proceso Multietapa de Filtrado Heurístico para la Limpieza de un Corpus Jurídico Español para el Procesamiento del Lenguaje Natural |
| Additional title: |
Chaîne de Traitement Heuristique Multi-étapes pour l'Affinage d'un Corpus Juridique Espagnol pour le Traitement Automatique du Langage Naturel |
| Date: |
2025 |
| Abstract: |
This research presents a multi-stage heuristic pipeline to refine the Spanish Boletín Oficial del Estado (BOE) corpus for Natural Language Processing tasks. Raw legal corpora are often filled with noise, including OCR errors, lists, tables, and non-textual placeholders, making them unsuitable for training language models. Our methodology first normalizes the text by correcting character-level errors and repairing hyphenation. Subsequently, it applies a series of filters based on quantifiable metrics, such as newline character ratios, non-alphabetic character counts, and misspelled word percentages, to detect and discard structurally and semantically unsuitable segments. A key contribution is the novel Combined Borderline Score (CBS), which identifies and removes marginal segments that are close to multiple failure thresholds. The result is a significantly cleaner corpus of legal texts, providing a high-quality foundation for training models for tasks like automatic text simplification and offering a reusable methodology for cleaning other large and diverse legal texts. |
| Abstract: |
Aquesta investigació presenta una seqüència heurística de múltiples etapes per netejar el corpus del Butlletí Oficial de l'Estat (BOE) espanyol per a tasques de Processament del Llenguatge Natural. Els corpus jurídics en brut solen contenir una gran quantitat de "soroll", com ara errors d'OCR, llistes i taules, que els fan inadequats per a l'entrenament de models de llenguatge. La nostra metodologia en primer lloc normalitza el text corregint errors de caràcters i ajustant la separació de paraules amb guions. Posteriorment, aplica una sèrie de filtres basats en mètriques quantificables com la proporció de salts de línia, el percentatge de caràcters no alfabètics i el de paraules mal escrites per a rebutjar segments estructuralment o semànticament inapropiats. Una contribució clau és la nova Puntuació Combinada de Llindar (PCL), que identifica i elimina segments marginals propers a múltiples llindars d'exclusió. El resultat és un corpus de textos jurídics significativament més net, que proporciona una base d'alta qualitat per a entrenar models per a tasques com la simplificació automàtica de textos i ofereix una metodologia reutilitzable per a la neteja d'altres grans corpus jurídics heterogenis. |
| Abstract: |
Esta investigación presenta una secuencia heurística de múltiples etapas para limpiar el corpus del Boletín Oficial del Estado (BOE) español para tareas de Procesamiento del Lenguaje Natural. Los corpus jurídicos en bruto suelen contener una gran cantidad de "ruido", como errores de OCR, listas y tablas, lo que los hace inadecuados para el entrenamiento de modelos de lenguaje. Nuestra metodología en primer lugar normaliza el texto corrigiendo errores en los caracteres y ajustando la separación de palabras con guiones. Posteriormente, aplica una serie de filtros basados en métricas cuantificables como la proporción de saltos de línea, el porcentaje de caracteres no alfabéticos y el de palabras mal escritas para rechazar segmentos estructural o semánticamente inapropiados. Una contribución clave es la novedosa Puntuación Combinada de Umbral (PCU), que identifica y elimina segmentos marginales cercanos a múltiples umbrales de exclusión. El resultado es un corpus de textos jurídicos significativamente más limpio, que proporciona una base de alta calidad para entrenar modelos para tareas como la simplificación automática de textos y ofrece una metodología reutilizable para la limpieza de otros grandes corpus jurídicos heterogéneos. |
| Abstract: |
Cette recherche présente une séquence heuristique en plusieurs étapes pour nettoyer le corpus du Bulletin Officiel de l'État (BOE) espagnol à des fins de traitement automatique du langage naturel. Les corpus juridiques bruts contiennent souvent beaucoup de « bruit », comme des erreurs d'OCR, des listes et des tableaux, qui les rendent inadaptés à l'entraînement de modèles linguistiques. Notre méthodologie commence par normaliser le texte en corrigeant les erreurs dans les caractères et en ajustant les coupures de mots par des traits d'union. Ensuite, elle applique une série de filtres basés sur des métriques quantifiables telles que le ratio de sauts de ligne, le pourcentage de caractères non alphabétiques et de mots mal orthographiés, afin d'écarter les segments structurellement ou sémantiquement inadaptés. Une contribution clé est le Score Combiné de Seuil (SCS), une technique novatrice qui identifie et élimine les segments marginaux proches de nombreux seuils d'exclusion. Le résultat est un corpus de textes juridiques nettement plus propre, fournissant une base de haute qualité pour l'entraînement de modèles destinés à des tâches telles que la simplification automatique de textes, et offrant une méthodologie réutilisable pour le nettoyage d'autres grands corpus juridiques hétérogènes. |
| Note: |
This research is funded by the European Union in the frame of the iRead4Skills project (Intelligent Reading Improvement System for Fundamental and Transversal Skills Development) (Grant number: 1010094837, Topic: HORIZON-CL2-2022-TRANSFORMATIONS-01-07). |
| Rights: |
Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, sempre i quan aquestes es distribueixin sota la mateixa llicència que regula l'obra original i es reconegui l'autoria.  |
| Language: |
Anglès |
| Document: |
Article ; recerca ; Versió publicada |
| Subject: |
Procesamiento del lenguaje natural (pln) ;
Limpieza de corpus ;
Procesamiento de textos jurídicos ;
Filtrado heurístico ;
Preprocesamiento de datos ;
Traitement automatique du langage naturel (taln) ;
Nettoyage de corpus ;
Traitement de textes juridiques ;
Filtrage heuristique ;
Prétraitement de données ;
Processament del llenguatge natural (pln) ;
Neteja de corpus ;
Processament de textos jurídics ;
Filtratge heurístic ;
Preprocessament de dades ;
Natural language processing (nlp) ;
Corpus cleaning ;
Legal text processing ;
Heuristic filtering ;
Data pre-processing |
| Published in: |
Langue(s) & Parole, Vol. 10 (2025) , p. 37-56 (Articles) , ISSN 2684-6691 |