Informações Principais
     Resumo
     Abstract
     Introdução
     Conclusão
     Download
  
  
  
 
Introdução
 
 
Acadêmico(a): Deivid Geovani SantAna
Título: CONTROLE POR VOZ UTILIZANDO A ENGINE JULIUS COM FALA CONTÍNUA
 
Introdução:
Desde a pré-história o homem tem usado sua inteligência para aumentar seu conforto e reduzir seus esforços. Neste sentido, os serviços digitais são uma ótima solução para o homem moderno. Na sociedade atual a demanda é pelo crescente avanço tecnológico, através da busca de novos meios para disseminar informações com alta velocidade e desempenho. Uma destas tecnologias usa o controle de voz para possibilitar a execução de tarefas simples em paralelo, como, por exemplo, dirigir um carro e atender o telefone celular, controlar um ou vários robôs na execução de tarefas ou movimentar objetos, permitindo comandar aparelhos eletrônicos sem contato físico direto. Pode-se citar também a possibilidade de uma pessoa com deficiência de locomoção controlar por voz uma cadeira de rodas (BARCELOS et al., 2008). Sistemas deste tipo são conhecidos como de Reconhecimento Automático de Voz (RAV).
Segundo Ynoguti (1999, p. 8), um sistema RAV consiste em mapear um sinal acústico capturado de um transdutor (usualmente um microfone) em um conjunto de palavras. A partir deste conjunto de palavras pode-se originar comandos para que determinado objeto realize uma ação. Geralmente um sistema RAV tem como entrada um sinal de fala e como saída as palavras reconhecidas. Existem algumas soluções para sistemas RAV, entre as quais, cita-se Dragon (NUANCE COMMUNICATION, 2013), que reconhece sequências de palavras e não somente palavras isoladas, e a engine Julius (LEE, 2009), que reconhece desde palavras isoladas até sequências contínuas de palavras, podendo trabalhar com um grande vocabulário.
A engine Julius funciona como uma Dynamic Link Library (DLL), sendo, de acordo com Lee (2009), um decodificador de alta performance para Large Vocabulary Continuous Speech Recognition (LVCSR). Julius utiliza dois modelos para o reconhecimento de voz, o modelo acústico e o modelo de linguagem. O modelo acústico determina um modelo matemático que representa a palavra a ser processada, enquanto o modelo de linguagem permite que o processamento possa ser feito de forma mais rápida e precisa.
Diante do exposto, foi proposto o desenvolvimento de uma aplicação com o objetivo de mostrar a capacidade de reconhecimento de voz da engine Julius para fala contínua. Para tanto, foi definido um modelo de linguagem para comandar um robô Lego NXT.