Informações Principais
     Resumo
     Abstract
     Introdução
     Conclusão
     Download
  
  
  
 
Introdução
 
 
Acadêmico(a): Nicollas Pierre Eissmann
Título: Detector de pessoas falantes
 
Introdução:
A face humana é talvez o primeiro meio de comunicação entre humanos. De acordo com Moura (2005), desde
que nascemos, e muito antes de aprendermos a falar, a “comunicação” entre filhos e pais é fortemente influenciada
pelas imagens que vamos guardando. Esta capacidade não é perdida. Por meio da face é identificado facilmente o
estado psicológico de uma pessoa, podendo ser uma característica importante para o contexto de uma determinada
comunicação. Dessa forma, pode ser dito, que tal como a fala, a face pode desempenhar uma função importante nas
formas de comunicação do ser humano. Por meio da fala o ser humano exterioriza os seus pensamentos, mas sem
esquecer que a face poderá ter um papel decisivo, conforme o ditado popular “às vezes uma imagem vale mais que mil
palavras”. Dada a familiaridade da face humana, e a sua função relevante na comunicação desde o momento em que
nascemos, tornou-se desafiador a avaliação da sua importância na comunicação oral humana.
Outros estudos, como o de Moura (2005), apontam um aumento significativo da compreensão da fala se o som
é acompanhado por um padrão visual, como por exemplo, uma fala simultânea à um gesto ou expressão. Nos
expressamos o tempo todo, seja para indicar insatisfação, medo, raiva, felicidade, surpresa, opiniões, interesses, desejos
ou qualquer outro sentimento ou vontade. Isso é feito através do uso de duas ferramentas importantíssimas no dia-a-dia,
a fala, através de conversas, e o rosto, através de expressões faciais. Reconhecer tais expressões pode prover enormes
contribuições, tais como uma melhora em interações humano-computador, melhoras em mídias, seja para de
entretenimento, crescimento pessoal ou profissional, e segurança.
De acordo com Zhong et al. (2012), estudos psicológicos mostram que as características de expressões faciais
estão localizadas em volta da boca, nariz e olhos. Além disso, a maioria das expressões são formadas utilizando um
pequeno número de músculos faciais. Isso indica que a maioria das expressões faciais estão localizadas em certos
lugares do rosto. A boca, por exemplo, tem um papel fundamental na identificação de expressões de felicidade, tristeza,
medo e surpresa, mas não possui um impacto tão grande em emoções de desprezo ou raiva.
Segundo Tian, Kanede e Cohn (2000), características da boca tem um papel fundamental em reconhecimento
automático de faces, análise de expressões faciais e processamento de fala. A identificação de um movimento dos lábios
de uma pessoa é um processo complicado pois, além do lábio poder ser deformado, pode também variar em formas,
cores e sua relação com outras características entre indivíduos. Além disso, os lábios estão sujeitos a mudanças drásticas
de posições por conta de movimentos da cabeça e da expressão da pessoa analisada.
A detecção de pessoas falantes em cenas de mídias visuais contribui para trabalhos que necessitam de encontrar
uma pessoa foco em uma cena para conseguir dar continuidade ao seu processo. Além disso, segundo Zhang, Wu e
Hsieh (2014), muitos dos sistemas áudios-visuais existentes realizam uso de dados visuais somente como auxílio para
seus detectores, focando mais na parte do áudio, fazendo com que não se tire vantagens de uma detecção visual. Como
exemplos de sistema que utilizam detecção de pessoas falantes e necessitam não só de informações de áudio, mas
também visuais, temos sistema de reconhecimento de fala que realizam leituras labiais, sistemas que lidam como
legendas de mídias de entretenimento, como a posição da legenda para melhor visualização ou rotulação automática de
qual pessoa está falando no momento, e sistemas que buscam melhorar a interação homem-máquina.
Diante deste cenário, esse trabalho apresenta o desenvolvimento de um protótipo capaz de identificar uma
pessoa dialogando em uma cena de filme ou outros meios de transmissão de vídeo, juntamente com a criação de uma
base de dados rotulada para os testes. Para isso, tem-se os seguintes objetivos específicos: (i) identificar as faces das pessoas presentes na cena; (ii) identificar os pontos faciais; (iii) identificar a região da boca, extraindo características
que indiquem se as pessoas estão falando