Informações Principais
     Resumo
     Abstract
     Introdução
     Conclusão
     Download
  
  
  
 
Introdução
 
 
Acadêmico(a): Fernando Erhardt
Título: Ferramenta para Conversão Texto-Fala da Interface de Aplicações Windows Forms
 
Introdução:
O século 20 foi uma época de grande desenvolvimento tecnológico. Nunca antes o ser humano havia produzido tanto conhecimento ou criado tantas ferramentas úteis para facilitar a vida. Os primeiros computadores, por exemplo, começaram a surgir na primeira metade deste século. Juntamente com as inovações tecnológicas, a literatura e o cinema sempre criaram histórias de ficção científica que extrapolavam o potencial conhecido da tecnologia, imaginando qual seria este potencial no futuro. Um dos fatos mais constantes nestas histórias, era a capacidade dos computadores se comunicarem com os seres humanos através de uma fala natural. Nos romances e contos clássicos do escritor Isaac Asimov (1920 – 1992), os robôs comunicam-se com os seres humanos naturalmente através da fala. E esse é apenas um exemplo dentre tantos. Mas este desejo não ficou somente com os escritores de ficção. Muitos pesquisadores e cientistas vêm procurando desde então uma forma de tornar esta ideia uma realidade.
Ainda se está longe de criar um computador capaz de ouvir o que um ser humano diz, entender o que foi dito e responder com uma fala natural e convincente. Mas várias áreas do conhecimento vêm fazendo evoluções significativas. A Inteligência Artificial (IA), por exemplo, avança no sentido de fazer o computador entender parte do raciocínio humano para tentar criar esta comunicação. Um fator fundamental nesta busca é a capacidade do computador transformar o texto em fala para que o ser humano o entenda. Os sistemas de conversão texto-fala têm sido criados e melhorados para atender este objetivo. Tais sistemas não precisam ter objetivos tão distantes como a comunicação perfeita entre homem e máquina. Muitos deles foram criados para tarefas mais simples como facilitar a interação dos usuários de computadores comuns com a interface do Sistema Operacional (SO) ou de outros softwares. De acordo com Chbane (1994, p. 13), o uso de um sistema de conversão texto-fala “[...] amplia o uso de computadores para diversas aplicações, dispensando a necessidade de treinamento ou equipamentos especiais para os usuários.”
Entretanto, existem algumas dificuldades no desenvolvimento de um sistema de conversão texto-fala que não estão diretamente ligadas às técnicas de conversão. Cada vez mais surgem novas tecnologias e novas linguagens que permitem o desenvolvimento de softwares das mais variadas formas. Tal fato obviamente é um avanço importante, mas pode dificultar o desenvolvimento de uma ferramenta capaz de obter informações de qualquer software, para então converter estas informações em fala. Assim, existem softwares para “ler” textos de páginas na internet, textos simples digitados ou apenas sua própria informação.
Diante do exposto, propõe-se o desenvolvimento de uma ferramenta para conversão texto-fala, que seja capaz de interagir com uma gama maior de diferentes aplicativos. Para tanto, a ferramenta proposta deve obter informações textuais de aplicações Windows Forms desenvolvidas com o Microsoft .Net Framework, que é uma plataforma de desenvolvimento que aceita mais de 30 linguagens de programação diferentes. Por este motivo, acredita-se que a ferramenta possa ser utilizada para interagir com um grande número de aplicações, tendo em vista que a utilização desta tecnologia de desenvolvimento vem crescendo nos últimos anos (TIOBE SOFTWARE BV, 2012). Além desta necessidade de integração entre as tecnologias, existe o desafio da construção de um sistema capaz de converter texto em fala. De acordo com Oechsler (2009, p. 13), “a síntese de voz normalmente é composta de um conjunto de etapas que envolvem desde a identificação do contexto a ser sintetizado até a geração das ondas da fala.” Ainda segundo Oechsler (2009, p. 14), “de forma geral, as etapas do processo de conversão texto-fala são: pré-processamento, análise lingüística, transcrição fonética, processamento prosódico e síntese.”