Lectura de labios en videos sin audio mediante Dynamic Time Warping y Machine Learning

Matienzo Reyes, Sanny Jheremmy

Cita bibliogràfica -- Enllaç permanent: https://ddd.uab.cat/record/308778

Lectura de labios en videos sin audio mediante Dynamic Time Warping y Machine Learning
Matienzo Reyes, Sanny Jheremmy
Antens, Coen tut. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Títol variant:	Lip reading in videos without audio using Dynamic Time Warping and Machine Learning
Data:	2025
Resum:	Este trabajo presenta el desarrollo de un sistema de lectura de labios basado en Visión por Computador y Machine Learning, con el objetivo de transcribir palabras pronunciadas en videos sin audio. Este sistema busca facilitar la comunicación para personas con dificultades auditivas y explorar nuevas aplicaciones en contextos donde el sonido no es una opción viable. Para su desarrollo, se ha utilizado la librería Mediapipe para la detección de los labios, descriptores de Fourier para representar su movimiento, Dynamic Time Warping (DTW) para medir similitudes entre secuencias temporales y K-Nearest Neighbors (KNN) para la clasificación de palabras. Los resultados muestran que el sistema logra una alta precisión en entornos controlados, pero presenta dificultades al generalizar a diferentes hablantes y cambios en la orientación de la cabeza. Este estudio confirma el potencial de la lectura de labios automatizada y destaca la necesidad de mejorar la robustez del modelo para su aplicación en entornos más diversos.
Resum:	This work presents the development of a lip-reading system based on Computer Vision and Machine Learning, aiming to transcribe spoken words from videos without audio. This system seeks to facilitate communication for individuals with hearing impairments and explore new applications in scenarios where audio is not a viable option. The development process involved Mediapipe for lip detection, Fourier descriptors for movement representation, Dynamic Time Warping (DTW) to measure temporal sequence similarities, and K-Nearest Neighbors (KNN) for word classification. The results indicate that the system achieves high accuracy in controlled environments but struggles to generalize across different speakers and variations in head orientation. This study highlights the potential of automated lip reading and the need to enhance model robustness for broader real-world applications.
Drets:	Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades.
Llengua:	Castellà
Titulació:	Enginyeria Informàtica [2502441]
Pla d'estudis:	Enginyeria Informàtica [958]
Document:	Treball final de grau ; Text
Àrea temàtica:	Menció Computació
Matèria:	Inteligencia Artificial ; Visión por Computador ; Lectura de Labios ; Dynamic Time Warping (DTW) ; Descriptores de Fourier ; K-Nearest Neighbors (KNN) ; Mediapipe ; Artificial Intelligence ; Computer Vision ; Lip Reading ; Fourier Descriptors ; KNearest Neighbors (KNN)

15 p, 1.3 MB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de Fi de Grau > Escola d'Enginyeria. TFG

Registre creat el 2025-03-03, darrera modificació el 2026-03-13

Registres semblants

Afegeix-lo al cistell personal
Anomena i desa Citation, BibTeX, MARC, MARCXML, DC, EDM OpenAire4