Asistente de voz local
Aquilué Rubio, Raúl
Sánchez Albaladejo, Gemma, dir. (Universitat Autònoma de Barcelona. Departament d'Enginyeria de la Informació i de les Comunicacions)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Título variante: Assistent de veu local
Título variante: Local voice assistant
Fecha: 2024
Resumen: Aquest projecte té com a objectiu desenvolupar un assistent virtual local que converteixi consultes en llenguatge natural a SQL i recuperi respostes d'una base de dades, assegurant la privacitat i seguretat de les dades. S'ha creat una pàgina web basada en Laravel, centrada en la funcionalitat del backend, que opera en un servidor Proxmox amb Cloudflare i MySQL. Les característiques clau inclouen proves de STT i TTS en línia i locals, consultes manuals a la base de dades, historial d'àudios de STT i TTS, i avaluació de consultes i respostes. L'assistent admet interaccions per veu i text, utilitzant WhisperAI per a la transcripció de veu a text local i CoquiTTS amb el model XTTS v2 per a text a àudio. La conversió de llenguatge natural a SQL es realitza mitjançant el model CodeQwen-7B a través d'Ollama. L'informe detalla la creació del projecte, l'elecció de components i avaluacions basades en més de 1000 consultes de prova.
Resumen: Este proyecto tiene como objetivo desarrollar un asistente virtual[2] local que convierta consultas en lenguaje natural[3] a SQL y recupere respuestas de una base de datos, asegurando la privacidad y seguridad de los datos. Se ha creado una página web basada en Laravel, centrada en la funcionalidad del backend, que opera en un servidor Proxmox[9] con Cloudflare y MySQL. Las características clave incluyen pruebas de STT[4] y TTS[5] en línea y locales, consultas manuales a la base de datos, historial de audios de STT y TTS, y evaluación de consultas y respuestas. El asistente admite interacciones por voz y texto, utilizando WhisperAI[6] para la transcripción de voz a texto local y CoquiTTS[5] con el modelo XTTS v2 para texto a audio. La conversión de lenguaje natural a SQL se realiza mediante el modelo CodeQwen-7B a través de Ollama[17]. El informe detalla la creación del proyecto, la elección de componentes y evaluaciones basadas en más de 1000 consultas de prueba.
Resumen: This project aims to develop a local virtual assistant[2] that converts natural language[3] queries to SQL and retrieves responses from a database, ensuring data privacy and security. A Laravel-based website was created, focusing on backend functionality, operating on a Proxmox[9] server with Cloudflare and MySQL. Key features include online and local STT[4] and TTS[14] tests, manual database queries, STT and TTS audio history, and query and response evaluation. The assistant supports voice and text interactions, using WhisperAI[6] for local voice-to-text transcription and CoquiTTS[14] with the XTTS v2 model for text-to-audio. Natural language to SQL conversion is done via the CodeQwen-7B model through Ollama[17]. The report details the project creation, component choices, and evaluations based on over 1000 test queries.
Derechos: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Lengua: Castellà
Titulación: Enginyeria Informàtica [2502441]
Plan de estudios: Grau en Enginyeria Informàtica [958]
Documento: Treball final de grau ; Text
Área temática: Menció Computació
Materia: Assistent de veu ; Privacitat de dades ; Text a veu (TTS) ; Veu a text (STT) ; Whisper AI ; Coqui TTS ; Laravel ; MySQL ; Proxmox ; Llenguatge natural ; Consultes sql ; Grans models de llenguatge (llm) ; Processament local ; Cloudflare ; Asistente de voz ; Privacidad de datos ; Texto a Voz (TTS) ; Voz a Texto (STT) ; Lenguaje natural ; Consultas sql ; Modelos de lenguaje grandes (llm) ; Procesamiento local ; Voice assistant ; Data privacy ; Text-to-Speech (TTS) ; Speech-to-Text (STT) ; Natural language ; SQL queries ; Large language models (llm) ; Local processing



13 p, 1.0 MB

El registro aparece en las colecciones:
Documentos de investigación > Trabajos de Fin de Grado > Escuela de Ingeniería. TFG

 Registro creado el 2024-07-17, última modificación el 2024-10-26



   Favorit i Compartir