Informações Principais
     Resumo
     Abstract
     Introdução
     Conclusão
     Download
  
  
  
 
Conclusão
 
 
Acadêmico(a): Allan Renato Sabino
Título: FERRAMENTA PARA CRIAÇÃO DE BASES DE CONHECIMENTO NA FORMA DE ONTOLOGIA OWL A PARTIR DE DADOS NÃO ESTRUTURADOS
 
Conclusão:
O avanço das tecnologias para aquisição e armazenamento de dados permitiu que o volume de informação em formato digital tenha aumentado significativamente nas organizações, sendo que 80% dos dados encontram-se em formato textual. Porém, dados não provêm insumos suficientes, ao gestor da organização para a tomada de decisão, devido sua baixa semântica. A transformação de dados brutos e informação em conhecimento facilita sua análise e compreensão. Entretanto, os repositórios de dados foram se tornando cada vez maiores, alcançando grandezas que tornam inviável o modelo de análise manual, necessitando de uma solução computacional.
Com essa premissa, foi desenvolvida uma ferramenta que possibilita a descoberta de conhecimento em uma base textual, formalizando-o através de uma ontologia OWL. Esse fato faz com que o conhecimento formalizado possa ser utilizado por soluções computacionais que detém faculdade de raciocínio, ajudando assim o gestor do conhecimento na tomada de decisão na organização. A ontologia gerada pela ferramenta, pode ser aberta pelo Protégé, facilitando sua análise. Assim sendo, é possível editar a ontologia, adicionando componentes da linguagem OWL que não são suportados pela ferramenta desenvolvida. Esta atualmente possui somente suporte para identificar e formalizar classes e relacionamentos (com seu devido domínio e escopo).
Para implementar a ferramenta foram estudados métodos de descoberta de conhecimento. A escolha pela MT se deu por dois motivos. O primeiro é por ela ser uma especialização da DCBD, criada especialmente para lidar com um cenário onde a quantidade de informações armazenadas em formato textual são de 80% e somente 20% são dados estruturados presentes em bases de dados. O segundo motivo é por ela ser uma das técnicas de DCT mais utilizadas em trabalhos acadêmicos, fato esse detectado ao efetuar a revisão bibliográfica sobre descoberta de conhecimento em bases textuais.
A escolha pela MT fez com que houvesse a necessidade de estudar PLN. Fazendo uso do conhecimento linguístico, o PLN permite extrair ao máximo as características do texto, sendo utilizada durante duas etapas da MT: pré-processamento e mineração. Na primeira etapa ela foi utilizada na remoção das stopwords, lematização e análise morfológica das palavras presentes na base textual de trabalho. Na segunda foi utilizada para buscar pelos padrões de descoberta de conhecimento adotados para a implementação da ferramenta (descritos na seção 2.2).
Por fim, estudou-se sobre formalismos de RC, sendo elencado para este trabalho a ontologia escrita com a linguagem de representação OWL. Esta foi escolhida pois a W3C, órgão regulador da internet, adotou esse formalismo como padrão para as ontologias na web.
As ferramentas utilizadas para o desenvolvimento da ferramenta se mostraram eficientes, facilitando a implementação de algumas funcionalidades. O analisador morfológico Cogroo foi imprescindível para o desenvolvimento da ferramenta. Ele possui a vantagem de não necessitar conexão com a internet. O uso da linguagem de programação Java facilitou o uso do Cogroo. Como ele é implementado nessa linguagem, basta baixar os fontes e integrá-lo ao projeto. Também foi utilizada a biblioteca PTStemmer para realizar a lematização das palavras da base textual. A mesma também possui implementação em Java, seguindo a mesma ideia do Cogroo de baixar os fontes e inserí-los no projeto.
O objetivo principal do presente trabalho, disponibilizar uma ferramenta para a criação de bases de conhecimento na forma de uma ontologia OWL a partir de textos não estruturados, foi atendido. Os objetivos específicos também foram atendidos, assim sendo, a ferramenta possibilita a visualização dos documentos que compõem a base textual, disponibiliza a estrutura morfológica da base textual e apresenta as estruturas ontológicas a partir do conhecimento extraído.
Porém, duas escolhas feitas durante a revisão bibliográfica tiveram impacto sobre a qualidade do conhecimento descoberto. A primeira delas foi a adoção de um pré-processamento simples, baseado no modelo de representação de palavras. A partir dela, foi concluído que quanto mais elaborado o pré-processamento, melhor são os resultados obtidos. Outro fator foi a escolha do padrão para descoberta do conhecimento. Ele se mostrou efetivo para a descoberta das classes da ontologia, porém simplista demais para os relacionamentos. Tem-se como alternativa utilizar estruturas sintáticas para melhorar a qualidade do conhecimento descoberto.