Informações Principais
     Resumo
     Abstract
     Introdução
     Conclusão
     Download
  
  
  
 
Conclusão
 
 
Acadêmico(a): Nicollas Pierre Eissmann
Título: Detector de pessoas falantes
 
Conclusão:
Este trabalho mostrou o processo de implementação de um método para identificar pessoas falantes em tempo
real. O protótipo desenvolvido foi dividido em duas partes: detecção da região da boca e detecção de movimento dos
lábios. Na primeira parte foi utilizado o algoritmo de Viola e Jones (2004), para realizar as detecções das faces. Para
identificar a região da boca foi utilizado o algoritmo de detecção de pontos faciais de Kazemi e Sullivan (2014). O
resultado se provou satisfatório, conseguindo encontrar a região da boca na maioria das vezes, porém é insuficiente
quando o indivíduo a ser detectado está longe da câmera para a detecção. Para a segunda parte foi utilizado os pontos da
região da boca encontrados na parte anterior, assim a distâncias entre os pontos da parte de cima do lábio e a parte de
baixo identifica se a boca está movendo ou não. A segunda parte da implementação provou-se satisfatória em ângulos
frontais, diagonais e distâncias de perto, porém em distâncias médias e em ângulos de perfil provou-se ineficiente
levando em consideração a taxa de acerto.
Além do protótipo, este trabalho também realizou uma contribuição com a criação de uma base de dados com
cinco vídeos de pessoas, rotulando três características: se a pessoa está falando ou não, qual o ângulo que ela está em
relação a câmera e em qual é a distância da câmera. A soma dos segundos da base é o equivalente à 448,8, sendo que
cada vídeo possuí uma taxa de 30 frames por segundo e uma resolução de 640x480 pixel, totalizando 13464 imagens
rotuladas Diante dos resultados obtidos, pode-se concluir que o algoritmo de detecção de pessoas falantes em cenas de
mídia visual possui uma taxa de acerto de ângulos frontais de aproximadamente de 75,80% e aproximadamente 63,10%
em ângulos diagonais, ao desconsiderar casos no qual o indivíduo apareça com a cabeça inclinada verticalmente. Além
disso, o algoritmo possuí 71,16% de taxa de acerto por detecções no qual a câmera estava perto do indivíduo. Por conta
disso, sugere-se que durante a utilização do protótipo seja posicionado uma câmera onde ela esteja perto de indivíduos
candidatos à pessoa que estão falando e que elas estejam de fronte para a câmera ou na diagonal. Contudo é importante
ressaltar que este trabalho não tratou problemas com ruídos e iluminação, que podem aumentar de forma significativa
os acertos dos algoritmos propostos. Como extensões, sugere-se a utilização de técnicas de processamento de imagens
para melhorar a qualidade das imagens obtidas ou tratamento da luminosidade, foco e pose nas imagens, além de
melhorar o processo de detecção do movimento da boca em pessoas de perfil.