Informações Principais
     Resumo
     Abstract
     Introdução
     Conclusão
     Download
  
  
  
 
Conclusão
 
 
Acadêmico(a): Alexandre Busarello
Título: Protótipo para Sumarização Automática de Textos Escritos em Língua Portuguesa
 
Conclusão:
Cada vez mais pesquisadores investem no estudo da sumarização automática de texto. Alguns com o intuito de colaborar com a área de Linguística Computacional e outros por necessitarem ferramentas para auxiliar na simplificação do acesso à informação. Assim, a sumarização automática pode ser aplicada como uma forma de resumir as informações disponíveis e facilitar a vida de quem busca por elas. Para desenvolver uma ferramenta para sumarização automática de texto, faz-se necessário o estudo do processamento de linguagem natural, a partir do qual é possível implementar as etapas do processo de sumarização usando uma abordagem de sumarização automática superficial ou profunda.
Durante o desenvolvimento do trabalho ficou evidente a dificuldade em formalizar a linguagem natural, pois, diferente das linguagens artificiais (linguagens de programação), é uma linguagem complexa e ambígua. Em função dessa dificuldade, optou-se por usar uma ferramenta para fazer as análises léxica e morfológica das palavras, visando focar o desenvolvimento no processo de sumarização, que é o objetivo principal do trabalho. Porém isto gerou algumas limitações no protótipo, tais como funcionar apenas com acesso a internet e, consequentemente, depender da disponibilidade da página web para o correto funcionamento do protótipo, além de depender do correto funcionamento do analisador morfológico no que diz respeito à etapa de etiquetagem das palavras.
Contudo, o presente trabalho atingiu os objetivos propostos, apesar das restrições citadas. Foi desenvolvida uma ferramenta que a partir de um texto-fonte gera um sumário extrativo de bom nível conforme os testes realizados. Além disto, o protótipo não limitou-se apenas a notícias como havia sido proposto, podendo também sumarizar textos de artigos científicos. Observa-se porém que os sumários gerados são mais adequados para notícias devido ao algoritmo utilizado.
As tecnologias e ferramentas utilizadas mostraram-se eficazes e tornaram mais ágil o processo de desenvolvimento do protótipo. O analisador morfológico Palavras, do projeto VISL, norteou a classificação das palavras e poupou um tempo considerável de desenvolvimento, mesmo sendo necessário extrair a informação retornada de um HTML. A linguagem C# facilitou bastante o desenvolvimento com o recurso de expressão regular nativa e funções prontas. A biblioteca PTStemmer também foi indispensável no desenvolvimento do protótipo, pois a implementação de um algoritmo para obter radicais de palavras é algo complexo e que impactaria diretamente no tempo de desenvolvimento.