Lip Reading for Silent Speech Recognition using 3D Convolution
Camacho Machaca, Javier Alejandro
Antens, Coen Jocobus , dir. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Títol variant: Lectura de labios para el reconocimiento de habla silenciosa mediante convolución 3D
Data: 2024
Resum: Aquest treball presenta el desenvolupament d'un programari capaç de llegir els llavis mitjançant el reconeixement facial. Amb aquest programari es busca facilitar la comunicació per a persones amb dificultats visuals o auditives, així com per a aquelles que vulguin saber què diu algú en una multitud o a una distància considerable. Per assolir aquest objectiu, primerament s'ha desenvolupat un model que prediu quina vocal està pronunciant una persona utilitzant la llibreria Mediapipe. Aquest pas inicial ha permès obtenir un programa que ajuda a entendre millor les característiques més importants de la captura de característiques facials. A continuació, s'ha creat el model que prediu quina paraula, dins d'un grup de paraules en anglès, està pronunciant una persona en un vídeo. Aquest model s'ha entrenat amb el dataset 'The Oxford-BBC Lip Reading in the Wild (LRW)' [10] utilitzant Convolutional Neural Network (CNN), per ser més precisos, capes de convolució 3D de la llibreria de xarxes neuronals Keras i una versió d'una xarxa neuronal recurrent (RNN) Long Short-Term Memory (LSTM). La convolució 3D ha demostrat oferir els millors resultats, gràcies també al preprocessament d'imatges realitzat.
Resum: Este trabajo presenta el desarrollo de un software capaz de leer los labios mediante el reconocimiento facial. Con este software se busca facilitar la comunicación para personas con dificultades visuales o auditivas, así como para aquellas que quieran saber qué dice alguien en una multitud o a una distancia considerable. Para lograr este objetivo, primero se ha desarrollado un modelo que predice qué vocal está pronunciando una persona utilizando la biblioteca Mediapipe. Este paso inicial ha permitido obtener un programa que ayuda a entender mejor las características más importantes de la captura de rasgos faciales. A continuación, se ha creado el modelo que predice qué palabra, dentro de un grupo de palabras en inglés, está pronunciando una persona en un video. Este modelo se ha entrenado con el dataset 'The Oxford-BBC Lip Reading in the Wild (LRW)' [10] utilizando Convolutional Neural Network (CNN), específicamente, capas de convolución 3D de la biblioteca de redes neuronales Keras y una versión de una red neuronal recurrente (RNN) Long Short-Term Memory (LSTM). La convolución 3D ha demostrado ofrecer los mejores resultados, gracias también al preprocesamiento de imágenes realizado.
Resum: This work presents the development of software capable of lip reading through facial recognition. This software goals to facilitate communication for people with visual or hearing impairments, as well as for those who want to understand what someone is saying in a crowd or at a considerable distance. To achieve this goal, a model has been developed that predicts which vowel a person is pronounced using the 'FaceMesh()' function from the Mediapipe library. This initial step has allowed for the creation of a program that helps better understand the most important features of facial feature capture. Besides, a model has been created that predicts which word, within a group of words in English, a person is pronounced in a video. This model was trained with the 'The Oxford-BBC Lip Reading in the Wild (LRW)' dataset [10] using Convolutional Neural Network (CNN), to be more precise, 3D convolutional layers from the Keras neural network library (tf. keras. layers. Conv3D) and a version of a Long Short-Term Memory (LSTM) recurrent neural network (RNN). The 3D convolution has shown to provide the best results, also thanks to the image preprocessing performed.
Drets: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. Creative Commons
Llengua: Català
Titulació: Enginyeria Informàtica [2502441]
Pla d'estudis: Enginyeria Informàtica [958]
Document: Treball final de grau ; Text
Àrea temàtica: Menció Computació
Matèria: Lip Reading ; Mediapipe ; Face Mesh ; Detecció del rostre ; Detecció de la boca ; CNN ; CONV3D ; Keras ; RNN ; LSTM ; Detección del rostro ; Detección de la boca ; Face detection ; Mouth detection



13 p, 1.4 MB

El registre apareix a les col·leccions:
Documents de recerca > Treballs de Fi de Grau > Escola d'Enginyeria. TFG

 Registre creat el 2024-07-17, darrera modificació el 2025-07-20



   Favorit i Compartir