Tese

Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro

Automatic speech recognition and text-to-speech systems have modules that depend on the language and, while there are many public resources for some languages (e.g. English and Japanese), the resources for Brazilian Portuguese (BP) are still limited. Another aspect is that for many tasks the current...

ver descrição completa

Autor principal: SAMPAIO NETO, Nelson Cruz
Grau: Tese
Idioma: por
Publicado em: Universidade Federal do Pará 2012
Assuntos:
Acesso em linha: http://repositorio.ufpa.br/jspui/handle/2011/2845
id ir-2011-2845
recordtype dspace
spelling ir-2011-28452021-09-24T14:45:00Z Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro SAMPAIO NETO, Nelson Cruz KLAUTAU JÚNIOR, Aldebaro Barreto da Rocha http://lattes.cnpq.br/1596629769697284 Reconhecimento automático da voz Síntese da voz Automatic speech recognition Text-to-speech CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOES Automatic speech recognition and text-to-speech systems have modules that depend on the language and, while there are many public resources for some languages (e.g. English and Japanese), the resources for Brazilian Portuguese (BP) are still limited. Another aspect is that for many tasks the current speech recognition system error rate is still high, when compared to that obtained by humans. Thus, despite the success of hidden Markov models (HMM), it is necessary to investigate new methods. This work has these two facts as motivation and is divided into two parts. The first part describes the resources and free tools developed for BP speech recognition and synthesis, consisting of text and audio databases, phonetic dictionary, grapheme-to-phone converter, syllabification module, language and acoustic models. All of them are publicly available and, together with a proposed application programming interface, have been used for the development of several new real-time applications, including a speech module for the OpenOffice suite. Performance tests are presented for evaluating the developed systems. The resources make easier the adoption of BP speech technologies by other academic groups, developers and industry. The second part of this work presents a new method for rescoring the recognition result obtained via HMMs, with the result being organized as a lattice. More specifically, the system uses discriminative classifiers that aim at reducing the confusability between pairs of phones. For each of these binary problems, automatic feature selection techniques are used to choose the proper parametric representation for the specific problem. FAPESPA - Fundação Amazônia de Amparo a Estudos e Pesquisas Sistemas de reconhecimento e síntese de voz são constituídos por módulos que dependem da língua e, enquanto existem muitos recursos públicos para alguns idiomas (p.e. Inglês e Japonês), os recursos para Português Brasileiro (PB) ainda são escassos. Outro aspecto é que, para um grande número de tarefas, a taxa de erro dos sistemas de reconhecimento de voz atuais ainda é elevada, quando comparada à obtida por seres humanos. Assim, apesar do sucesso das cadeias escondidas de Markov (HMM), é necessária a pesquisa por novos métodos. Este trabalho tem como motivação esses dois fatos e se divide em duas partes. A primeira descreve o desenvolvimento de recursos e ferramentas livres para reconhecimento e síntese de voz em PB, consistindo de bases de dados de áudio e texto, um dicionário fonético, um conversor grafema-fone, um separador silábico e modelos acústico e de linguagem. Todos os recursos construídos encontram-se publicamente disponíveis e, junto com uma interface de programação proposta, têm sido usados para o desenvolvimento de várias novas aplicações em tempo-real, incluindo um módulo de reconhecimento de voz para a suíte de aplicativos para escritório OpenOffice.org. São apresentados testes de desempenho dos sistemas desenvolvidos. Os recursos aqui produzidos e disponibilizados facilitam a adoção da tecnologia de voz para PB por outros grupos de pesquisa, desenvolvedores e pela indústria. A segunda parte do trabalho apresenta um novo método para reavaliar (rescoring) o resultado do reconhecimento baseado em HMMs, o qual é organizado em uma estrutura de dados do tipo lattice. Mais especificamente, o sistema utiliza classificadores discriminativos que buscam diminuir a confusão entre pares de fones. Para cada um desses problemas binários, são usadas técnicas de seleção automática de parâmetros para escolher a representaçãao paramétrica mais adequada para o problema em questão. 2012-06-06T14:13:13Z 2012-06-06T14:13:13Z 2011-06-17 Tese SAMPAIO NETO, Nelson Cruz. Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro. Orientador: Aldebaro Barreto da Rocha Klautau Júnior. 2011. 96 f. Tese (Doutorado em Engenharia Elétrica.) - Instituto de Tecnologia, Universidade Federal do Pará, Belém, 2011. Disponível em: http://repositorio.ufpa.br/jspui/handle/2011/2845. Acesso em:. http://repositorio.ufpa.br/jspui/handle/2011/2845 por Acesso Aberto application/pdf Universidade Federal do Pará Brasil Instituto de Tecnologia UFPA Programa de Pós-Graduação em Engenharia Elétrica
institution Repositório Institucional - Universidade Federal do Pará
collection RI-UFPA
language por
topic Reconhecimento automático da voz
Síntese da voz
Automatic speech recognition
Text-to-speech
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOES
spellingShingle Reconhecimento automático da voz
Síntese da voz
Automatic speech recognition
Text-to-speech
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOES
SAMPAIO NETO, Nelson Cruz
Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro
topic_facet Reconhecimento automático da voz
Síntese da voz
Automatic speech recognition
Text-to-speech
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOES
description Automatic speech recognition and text-to-speech systems have modules that depend on the language and, while there are many public resources for some languages (e.g. English and Japanese), the resources for Brazilian Portuguese (BP) are still limited. Another aspect is that for many tasks the current speech recognition system error rate is still high, when compared to that obtained by humans. Thus, despite the success of hidden Markov models (HMM), it is necessary to investigate new methods. This work has these two facts as motivation and is divided into two parts. The first part describes the resources and free tools developed for BP speech recognition and synthesis, consisting of text and audio databases, phonetic dictionary, grapheme-to-phone converter, syllabification module, language and acoustic models. All of them are publicly available and, together with a proposed application programming interface, have been used for the development of several new real-time applications, including a speech module for the OpenOffice suite. Performance tests are presented for evaluating the developed systems. The resources make easier the adoption of BP speech technologies by other academic groups, developers and industry. The second part of this work presents a new method for rescoring the recognition result obtained via HMMs, with the result being organized as a lattice. More specifically, the system uses discriminative classifiers that aim at reducing the confusability between pairs of phones. For each of these binary problems, automatic feature selection techniques are used to choose the proper parametric representation for the specific problem.
author_additional KLAUTAU JÚNIOR, Aldebaro Barreto da Rocha
author_additionalStr KLAUTAU JÚNIOR, Aldebaro Barreto da Rocha
format Tese
author SAMPAIO NETO, Nelson Cruz
title Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro
title_short Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro
title_full Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro
title_fullStr Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro
title_full_unstemmed Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro
title_sort ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro
publisher Universidade Federal do Pará
publishDate 2012
url http://repositorio.ufpa.br/jspui/handle/2011/2845
_version_ 1832604014863187968
score 11.755432