Towards Machine Speech-to-speech Translation

Nakamura, Satoshi; Sudoh, Katsuhito; Sakti, Sakriani

doi:10.5565/rev/tradumatica.238

Cita bibliogràfica -- Enllaç permanent: https://ddd.uab.cat/record/216446

Web of Science: 2 cites, Scopus: 1 cites, Google Scholar: cites,

Towards Machine Speech-to-speech Translation
Nakamura, Satoshi

(Graduate School of Science and Technology (Japó))
Sudoh, Katsuhito

(Graduate School of Science and Technology (Japó))
Sakti, Sakriani (Graduate School of Science and Technology (Japó))

Títol variant:	Perspectivas sobre la traducción automática del habla
Títol variant:	Perspectives sobre la traducció automàtica de la parla
Data:	2019
Resum:	There has been a good deal of research on machine speech-to-speech translation (S2ST) in Japan, and this article presents these and our own recent research on automatic simultaneous speech translation. The S2ST system is basically composed of three modules: large vocabulary continuous automatic speech recognition (ASR), machine text-to-text translation (MT) and text-to-speech synthesis (TTS). All these modules need to be multilingual in nature and thus require multilingual speech and corpora for training models. S2ST performance is drastically improved by deep learning and large training corpora, but many issues still still remain such as simultaneity, paralinguistics, context and situation dependency, intention and cultural dependency. This article presents current on-going research and discusses issues with a view to next-generation speech-to-speech translation.
Resum:	En Japón se han llevado a cabo muchas actividades de investigación acerca de la traducción automática del habla. Este artículo pretende ofrecer una visión general de dichas actividades y presentar las que se han realizado más recientemente. El sistema S2ST está formado básicamente por tres módulos: el reconocimiento automático del habla continua y de amplios vocabularios (Automatic Speech Recognition, ASR), la traducción automática de textos (Machine translation, MT) y la conversión de texto a voz (Text-to-Speech Synthesis, TTS). Todos los módulos deben ser plurilingües, por lo cual se requieren discursos y corpus multilingües para los modelos de formación. El rendimiento del sistema S2ST mejora considerablemente por medio de un aprendizaje profundo y grandes corpus formativos. Sin embargo, todavía hace falta tratar diversos aspectos, com la simultaneidad, la paralingüística, la dependencia del contexto y de la situación, la intención y la dependencia cultural. Por todo ello, repasaremos las actividades de investigación actuales y discutiremos varias cuestiones relacionadas con la traducción automática del habla de última generación.
Resum:	Al Japó s'han dut a terme moltes activitats de recerca sobre la traducció automàtica de la parla. Aquest article n'ofereix una visió general i presenta les activitats que s'han efectuat més recentment. El sistema S2ST es compon bàsicament de tres mòduls: el reconeixement automàtic de la parla contínua i de vocabularis extensos (Automatic Speech Recognition, ASR), la traducció automàtica de textos (Machine translation, MT) i la conversió de text a veu (Text-to-Speech Synthesis, TTS). Tots els mòduls han de ser plurilingües, per la qual cosa es requereixen discursos i corpus multilingües per als models de formació. El rendiment del sistema S2ST millora considerablement per mitjà d'un aprenentatge profund i de grans corpus formatius. Tanmateix, encara cal tractar diversos aspectes, com la simultaneïtat, la paralingüística, la dependència del context i de la situació, la intenció i la dependència cultural. Així, farem un repàs a les activitats de recerca actuals i discutirem diverses qüestions relacionades amb la traducció automàtica de la parla d'última generació.
Drets:	Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, la comunicació pública de l'obra i la creació d'obres derivades, fins i tot amb finalitats comercials, sempre i quan es reconegui l'autoria de l'obra original.
Llengua:	Anglès
Document:	Article ; recerca ; Versió publicada
Matèria:	Speech-to-speech translation ; Automatic speech recognition ; Machine text-to-text translation ; Text-to-speech synthesis ; Traducción automática del habla ; Reconocimiento automático del habla ; Traducción automática de textos ; Conversión de texto a voz ; Traducció automàtica de la parla ; Reconeixement automàtic de la parla ; Traducció automàtica de textos ; Conversió de text a veu
Publicat a:	Revista tradumàtica, Num. 17 (2019) , p. 81-87 (Tradumàtica dossier) , ISSN 1578-7559

Adreça original: https://revistes.uab.cat/tradumatica/article/view/n17-nakamura-sudoh-sakti
Adreça alternativa: https://raco.cat/index.php/Tradumatica/article/view/363950
Adreça alternativa: https://raco.cat/index.php/Tradumatica/article/view/10.5565-rev-tradumatica.238
DOI: 10.5565/rev/tradumatica.238

7 p, 381.5 KB

El registre apareix a les col·leccions:
Articles > Articles publicats > Revista Tradumàtica
Articles > Articles de recerca

Registre creat el 2020-01-02, darrera modificació el 2026-04-02

Registres semblants

Afegeix-lo al cistell personal
Anomena i desa Citation, BibTeX, MARC, MARCXML, DC, EDM OpenAire4