Informações Principais
     Resumo
     Abstract
     Introdução
     Conclusão
     Download
  
  
  
 
Introdução
 
 
Acadêmico(a): Marco Aurélio Caramori
Título: Protótipo de Software para Leitura Labial
 
Introdução:
O reconhecimento de fala em áudio é uma área onde há grande investimento de pesquisa e implementação nos últimos tempos. Fornecendo conforto e acessibilidade na comunicação e interação homem-máquina, aplicações que vão desde robustos softwares para computadores de mesa até pequenos aplicativos para aparelhos celulares, estão disponíveis no mercado.
Estas aplicações começaram a surgir, em sua maior parte, no início da sexta geração de computadores, graças ao aumento significativo da capacidade computacional. Os estudos até então eram apenas viáveis em relação à implementação com recursos fornecidos por grandes universidades, não sendo possível a implementação em computadores pessoais.
O aumento da capacidade computacional tornou possível a utilização de redes neurais e modelos estatísticos na interpretação do áudio, que até o final dos anos de 1980 eram inviáveis. Sendo assim, a utilização do áudio foi explorada nas mais diversas formas, dando origem ao cenário atual em aplicações que utilizam a fala.
A utilização da fala, porém, requer alta precisão na interpretação dela, sendo este o maior problema atualmente para a área de estudo da frequência sonora, a qual possui atualmente o maior foco no desenvolvimento de soluções para esta tarefa. O processamento de áudio, assim como em processos que utilizam a imagem, envolve o tratamento de dados com uma grande quantidade de dados indesejados provenientes de sensores que efetuam leituras de todo o cenário, sendo neste caso um microfone ou uma câmera de vídeo, fazendo assim necessários processos que removem ou ignoram estas informações.
A utilização das imagens no processo de reconhecimento da fala tornou-se também um recurso muito importante em processos que utilizam a frequência sonora. Desta forma, processos que utilizam modelos estatísticos híbridos, por exemplo, processam tanto a representação visual quanto auditiva, fazendo com que a análise da fala seja mais aproximada da técnica de interpretação da fala entre humanos.
Este trabalho, portanto, tem como objetivo explorar as imagens durante o processo de comunicação humano, através da análise do movimento labial. Para que tal objetivo fosse alcançado, foram utilizadas técnicas de visão computacional, cuja entrada para o protótipo do sistema são imagens em vídeo de locutores efetuando a fala de algum valor textual pré-estabelecido. A partir destas imagens são utilizadas técnicas de processamento de imagem para extrair valores referentes às medidas dos lábios, fazendo por fim, uso de um algoritmo probabilístico de busca, para determinar o valor textual em imagens de vídeo sem informação de áudio.