Desenvolupament d'un Sistema de Reconeixement de Llengua de Signes
Planas Batllori, Jan
Sánchez Albaladejo, Gemma tut. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona.
Escola d'Enginyeria
| Additional title: |
Development of a Sign Language Recognition System |
| Additional title: |
Desarrollo de un Sistema de Reconocimiento de Lengua de Signos |
| Date: |
2026 |
| Abstract: |
Aquest treball presenta el desenvolupament d'un sistema basat en tècniques d'aprenentatge profund per al reconeixement automàtic de llengua de signes americana (ASL) a partir de seqüències de vídeo. El sistema es construeix utilitzant el conjunt de dades WLASL, que conté milers de vídeos corresponents a un vocabulari extens de signes realitzats per diferents signants i en condicions visuals diverses. El pipeline proposat inclou un procés de preprocessament que abasta la normalització temporal dels vídeos, la detecció de punts clau de mans, rostre i cos com a mecanisme de ressalt visual de les regions d'interès, i la generació de seqüències de fotogrames RGB adaptades a l'arquitectura del model. La detecció de keypoints no s'utilitza com a entrada directa, sinó com a guia per facilitar que el model es concentri en les zones més rellevants de cada fotograma. Per al reconeixement dels signes s'empra una arquitectura híbrida CNN- LSTM, en la qual una xarxa convolucional profunda extreu característiques espacials de cada fotograma i una xarxa LSTM modela la dinàmica temporal dels moviments. Els resultats obtinguts indiquen que el model és capaç de capturar patrons temporals rellevants i generar prediccions coherents. |
| Abstract: |
This project presents the development of a deep learning-based system for the automatic recognition of American Sign Language (ASL) from video sequences. The system is built using the WLASL dataset, which contains thousands of videos corresponding to a large vocabulary of signs performed by multiple signers under diverse visual conditions. The proposed pipeline includes a preprocessing stage that encompasses temporal normalization of the videos, keypoint detection of hands, face, and body used as a visual highlighting mechanism for regions of interest, and the generation of RGB frame sequences adapted to the model architecture. Keypoint detection is not used as a direct input representation, but rather as guidance to encourage the model to focus on the most relevant areas of each frame. For sign recognition, a hybrid CNN-LSTM architecture is employed, where a deep convolutional neural network extracts spatial features from individual frames and an LSTM network models the temporal dynamics of the movements. The obtained results indicate that the model is capable of capturing relevant temporal patterns and generating coherent predictions. |
| Abstract: |
Este trabajo presenta el desarrollo de un sistema basado en técnicas de aprendizaje profundo para el reconocimiento automático de la lengua de signos americana (ASL) a partir de secuencias de vídeo. El sistema se construye utilizando el conjunto de datos WLASL, que contiene miles de vídeos correspondientes a un vocabulario extenso de signos realizados por diferentes signantes y en condiciones visuales diversas. El pipeline propuesto incluye un proceso de preprocesamiento que abarca la normalización temporal de los vídeos, la detección de puntos clave de manos, rostro y cuerpo como mecanismo de realce visual de las regiones de interés, y la generación de secuencias de fotogramas RGB adaptadas a la arquitectura del modelo. La detección de keypoints no se utiliza como entrada directa, sino como guía para facilitar que el modelo se concentre en las zonas más relevantes de cada fotograma. Para el reconocimiento de los signos se emplea una arquitectura híbrida CNN-LSTM, en la cual una red convolucional profunda extrae características espaciales de cada fotograma y una red LSTM modela la dinámica temporal de los movimientos. Los resultados obtenidos indican que el modelo es capaz de capturar patrones temporales relevantes y generar predicciones coherentes. |
| Rights: |
Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades.  |
| Language: |
Català |
| Studies: |
Enginyeria Informàtica [2502441] |
| Study plan: |
Enginyeria Informàtica [958] |
| Document: |
Treball final de grau |
| Subject area: |
Menció Computació |
| Subject: |
ASL (American Sign Language) ;
WLASL ;
Reconeixement de llengua de signes ;
CNN-LSTM ;
Visió per computador ;
Aprenentatge profund ;
Reconeixement en temps real ;
Deep learning ;
Sign language recognition ;
Computer vision ;
Real-time recognition ;
Reconocimiento de lengua de signos ;
Visión por computador ;
Aprendizaje profundo ;
Reconocimiento en tiempo real ;
Deep Learning |
The record appears in these collections:
Research literature >
Bachelor's degree final project >
School of Engineering. TFG
Record created 2026-03-06, last modified 2026-03-22