Informações Principais
     Resumo
     Abstract
     Introdução
     Conclusão
     Download
  
  
  
 
Introdução
 
 
Acadêmico(a): Marcos Rodrigo da Silva
Título: Estudo sobre Máscaras de Áudio para Emulação de Voz
 
Introdução:
É cada vez mais comum o número de pessoas que fazem imitações de celebridades e pessoas famosas, seja por diversão, ou profissionalmente. Algumas pessoas possuem um timbre de voz comum, que pode ser facilmente imitado, porém existem timbres mais complexos de serem imitados, timbres que são inconfundíveis, os quais se podem identificar a pessoa por uma simples palavra ou frase. Com isso, associa-se a alguns personagens uma voz característica, que o torna único. E o que fazer para imitar estas vozes, que não são tão fáceis, inclusive para os melhores imitadores?
Com este trabalho, pretende-se criar uma ferramenta que analise o timbre de voz de um personagem alvo e o timbre de voz de um locutor, obtendo informações a respeito da forma como o sinal de áudio é gerado. Para isto, tentar-se-á usar o Attack, Decay, Sustain, Release (ADSR) que é uma forma de se “envelopar” o sinal (ADSR, 2008), ou seja, descobrir os contornos do sinal (onde estão os picos, onde esse se mantém estável etc.). Estes contornos definem a diferença entre os timbres de voz.
Feita a análise inicial, a ferramenta irá treinar uma Rede Neural Artificial (RNA) para que esta aprenda como transformar a voz do locutor na voz do personagem alvo, ou seja, como fazer com que o envelope da voz do locutor fique o mais próximo possível do envelope da voz do personagem. Com isso, o locutor reproduzirá, de forma emulada, a voz deste personagem.
Serão utilizados exemplos gravados de vozes (como a voz de uma criança, a voz de um adulto, a voz de um idoso etc.) e com a ajuda das ferramentas Audacity (MAZZONI, 2008) e WavePad Sound Editor (NHC SOFTWARE, 2007) verificar se os sinais gerados pela ferramenta proposta assemelham-se aos sinais previamente gravados.
A análise das vozes pode ser considera uma tarefa árdua, devido ao fato de que as duas vozes a serem analisadas não estarão necessariamente sincronizadas na reprodução da mesma sílaba, ou seja, acontecerá em determinados momentos, de que as duas pessoas estarão falando palavras (ou mesmo frases) diferentes. Assim, a RNA deve ser treinada com os padrões da voz, ou seja, padrões dos ADSRs obtidos através das transformadas de Fourier, e não somente com as amplitudes das frequências dos sinais durante o tempo, como fazem as ferramentas de reconhecimento de voz. Isso porque não se espera identificar as palavras que estão sendo pronunciadas, mas sim a forma como estas são proferidas, a forma como elas crescem, se mantém e finalizam. Com isso, será permitido um estudo maior para a criação de vozes artificiais, os chamados sintetizadores de voz, pois será possível verificar como diferentes vozes são geradas.