Listener: treine sua pronúncia de inglês

Metodologia

Overview

A abordagem para a construção do reconhecedor de pronúncia ora proposto seguirá o modelo dito combinado ou interlingual9 (NERI et al. 2003) e será implementada a partir da engine Julius (LEE & KAWAHARA, 2009). Para isso, é necessário: (i) uma classificação de erros de pronúncia que leve em conta a transferência de padrões de L1 para L2; (ii) um modelo acústico que agregue dados de fala do inglês tanto de nativos, quanto de aprendizes; (iii) um dicionário de pronúncia que contenha a transcrição das pronúncias desviantes do aprendiz; e (iv) um modelo de língua que condiga com a sintaxe do aprendiz.

Os erros de pronúncia foram selecionados a partir dos trabalhos de Godoy et al. (2006), Zimmer et al. (2009) e Cristófaro Silva (2012). O modelo acústico será compilado a partir da junção de dois corpora de fala, um de falante nativos do inglês: TIMIT Acoustic-Phonetic Continuous Speech Corpus; e outro de falantes nativos do PB, aprendizes de inglês como L2: COBAI – Corpus Oral Brasileiro de Aprendizes de Inglês. Utilizaremos o dicionário de pronúncia do VoxForge Speech Corpus, no qual acrescentaremos as hipóteses de pronúncia dos aprendizes, por meio de regras e aprendizado de máquina. O modelo de língua será constituído por trigramas, gerados a partir dos 99.508 artigos da Simple English Wikipedia.

Modelo acústico

O modelo acústico proposto será elaborado através de HMM e definido para trifones. O Julius provê fácil suporte a modelos acústicos de HMM obtidos a partir do HTK Hidden Markov Model Toolkit10, disponibilizado pelo Speech Vision and Robotics Group, da Universidade de Cambridge. Para o treino do modelo acústico, utilizaremos dados tanto de falantes nativos, quanto de aprendizes. O modelo acústico será compilado a partir de dois corpora de fala, um de falante nativos do inglês: TIMIT Acoustic-Phonetic Continuous Speech Corpus11; outro de falantes nativos do PB, aprendizes de inglês como L2: COBAI – Corpus Oral Brasileiro de Aprendizes de Inglês12. A construção de um modelo acústico interlingual busca contornar a dificuldade que se tem em reconhecer o sinal acústico de falantes não-nativos, através da inserção de informação da pronúncia nãonativa no processo de treinamento do modelo acústico, por meio de dados com a pronúncia dos aprendizes (WANG et al. 2003).

Optamos pela utilização do TIMIT como o corpus de falantes nativos inglês por se tratar de: um corpus bem modelado, robusto, foneticamente rico, amplamente utilizado e testado na área de reconhecimento de fala, em cerca de duas décadas de pesquisa, além de cobrir os dialetos majoritários do inglês americano (LOPES & PERDIGÃO, 2011). O corpus TIMIT foi elaborado, conjuntamente, pelo Instituto de Tecnologia de Massacusetts (MIT), SRI Internacional e Texas Instruments Inc. (TI) com o propósito fornecer dados para a realização de estudos de fonética acústica do inglês, bem como para o desenvolvimento de sistemas automáticos de reconhecimento de fala. Ele contém gravações de cerca de 630 falantes, dos oito principais dialetos do inglês americano. As gravações foram elaboradas a partir da leitura de dez sentenças criadas artificialmente, de modo a capturar ambientes fonéticos relevantes. O TIMIT foi verificado manualmente e está transcrito ortográfica e foneticamente, adicionalmente, foi feito o alinhamento temporal entre o arquivo de áudio e as transcrições. Os arquivos estão separados em sentença, amostrados a 16kHz com 16 bits por amostra.

O COBAI foi selecionado por uma gama de motivos. Tratase da primeira iniciativa brasileira que busca compilar e distribuir, de forma aberta, um corpus de fala anotado de aprendizes de inglês, falantes nativos do PB. O COBAI integra o Louvain International Database of Spoken English Interlanguage (LINDSEI) e vem sendo organizado pelo Laboratório de Estudos Empíricos e Experimentais da Linguagem (LEEL), da Faculdade de Letras, da Universidade Federal de Minas Gerais (UFMG). O propósito do LINDSEI é a disponibilização de corpora de fala de aprendizes de inglês, com diferentes backgrounds de língua nativa. O COBAI segue as diretrizes de transcrição do LINDSEI, que utiliza padrões XML na anotação. A transcrição é do tipo ortográfica e agrega informações de: troca de turno, sobreposição de fala, pausas, hesitações, formas reduzidas e algumas indicações fonéticas e prosódicas. Atualmente, cerca de 60% do corpus está anotado. O corpus consiste em 50 gravações de 15 minutos, que incorporam uma narrativa, uma entrevista e uma descrição. Os arquivos estão separados em entrevista, amostrados a 44kHz com 16 bits por amostra. Todas as gravações foram feitas com falantes nativos do PB, aprendizes de inglês. O grau de conhecimento da língua inglesa dos participantes é variado, havendo desde aprendizes com baixa proficiência até indivíduos com grau considerável de proficiência.

Modelo de pronúncia

O dicionário de pronúncia será formado a partir da versão disponibilizada para o inglês americano pelo VoxForge Speech Corpus13, o qual será acrescido de transcrições das possíveis pronúncias desviantes dos aprendizes, por meio de regras transformacionais e de aprendizado de máquina. Dicionários contendo tais características são também chamados na literatura como dicionários multipronúncia (WANG et al., 2003).

A base do dicionário de pronúncia do VoxForge Speech Corpus provém do CMU Pronouncing Dictionary14, disponibilizado na engine Sphinx, pela Universidade Carnegie Mellon. O dicionário do VoxForge, na realidade, constitui uma ampliação da lista de palavras do CMU. Atualmente, nele estão registradas 131.411 entradas, transcritas foneticamente em formato ARPAbet (ZUE & SENEFF, 1988). O dicionário possui três campos: (i) um interno, para identificação da palavra, (ii) um com a palavra em sua forma ortográfica, convencionalizada em letras maiúsculas, (iii) e um último campo com a transcrição fonética da palavra, em formato ARPAbet. O primeiro campo tem por intuito possibilitar ao sistema distinguir as entradas de palavras homógrafas heterófonas, isto é, distinguir a entrada de palavras que possuem uma mesma grafia, mas pronúncia diferente. As possíveis hipóteses de pronúncia do aprendiz serão acrescidas ao dicionário, por meio de regras transformacionais.

Modelo de língua

Um modelo de língua será fornecido ao Listener, de modo a possibilitar checarmos seu desempenho em um contexto de ditado. Há diversos modelos de língua para o inglês (como o Gigaword17, CSR LM118, HUB419). Todavia, a grande maioria desses modelos foi gerada a partir de corpora de artigos de jornal e é sabido que textos jornalísticos tendem a possuir estrutura sintática e vocabulário complexos (CANNING, 2002; CANNING & TAIT, 1999). Como a intenção é lidar com a fala de aprendizes, propomos a criação de um modelo de língua que seja mais simplificado e condizente com a sintaxe dos aprendizes. Será elaborado um modelo de língua dito estatístico, que considera trigramas na análise e se baseia em HMM.

Como corpus para criação do modelo de língua, utilizaremos a Simple English Wikipedia, cuja proposta é desenvolver uma Wikipedia em inglês de nível básico, com vocabulário e construções sintáticas mais simples, de modo a prover acesso a crianças, estudantes, adultos com baixo nível de letramento e aprendizes de inglês como L2. A última versão disponível da Simple English Wikipedia, referente ao dia 1o de maio de 2013, possui 99.508 artigos20. Todos os arquivos estão codificados em XML. A ferramenta SRILM (The SRI Language Modeling Toolkit) será utilizada para auxiliar na criação do modelo de língua.

Metodologia

Overview

Modelo acústico

Modelo de pronúncia

Modelo de língua

Busca

Listener no Facebook

Links

Softwares

Corpora

Misc

Comentários

News

Artigo Interspeech 2014

Listener

Endereço

E-mail

Fone