Informações Principais
     Resumo
     Abstract
     Introdução
     Conclusão
     Download
  
  
  
 
Introdução
 
 
Acadêmico(a): Allan Renato Sabino
Título: FERRAMENTA PARA CRIAÇÃO DE BASES DE CONHECIMENTO NA FORMA DE ONTOLOGIA OWL A PARTIR DE DADOS NÃO ESTRUTURADOS
 
Introdução:
O avanço das tecnologias para aquisição e armazenamento de dados tem permitido que o volume de informação em formato digital aumente de forma significativa nas organizações. Estima-se que no período de 2003 a 2010 a quantidade de informação no universo digital passou de cinco hexabytes (aproximadamente cinco bilhões de gigabytes) para 988 hexabytes. Até o ano de 2008 contabilizou-se que a humanidade produziu cerca de 487 hexabytes de informação digital (MARCACINI; MOURA; REZENDE, 2011, p. 7).
Cerca de 80% destes dados estão em formato não estruturado, dos quais uma parte significativa são textos (KUECHLER, 2007, p. 86). Estes textos são considerados como dados brutos, pois não possuem estrutura definida. Constituem um importante repositório organizacional, que envolve o registro de histórico de atividades, memorandos, documentos internos, e-mails, projetos, estratégias e o próprio conhecimento adquirido (HAN; KAMBER, 2006, p. 5). Segundo Marcacini, Moura e Rezende (2011, p. 7), “A organização inteligente dessas coleções textuais é de grande interesse para a maioria das organizações, pois agiliza processos de busca e recuperação da informação”.
A transformação de dados brutos e informação em conhecimento facilita sua análise e compreensão pelo gestor do conhecimento da organização. Esta transformação é uma reestruturação cognitiva dos dados, dependente da manipulação e aplicação de informações, ante uma atividade desenvolvida por um indivíduo (FIALHO et al., 2010, p. 19).
Na sociedade pós-industrial a transformação de dados em conhecimento é uma atividade importante para promoção do crescimento e da tomada de decisões eficazes nas organizações. Os bens e serviços que são produzidos e consumidos estão tornando-se cada vez mais intensivos em tecnologia e conhecimento. A competição é cada vez mais baseada na capacidade de transformar informação em conhecimento e conhecimento em decisões e ações de negócio (FIALHO et al., 2010, p. 53-54). Segundo Tarapanoff (2006, p. 26), esta competição embasada pelo conhecimento é chamada de inteligência competitiva e pode ser definida como um processo de aprendizado fundado sobre a informação, permitindo a otimização da estratégia corporativa em curto e longo prazo. Esse processo, para ser implementado, requer contínua utilização de dados e informações, sendo que no processo de análise, agregação de valor e criação a partir dos mesmos é utilizado o conhecimento individual do gestor do conhecimento.
Conforme destacado anteriormente, o volume de dados textuais produzidos e armazenados é tal que extrapola a capacidade humana de, manualmente, analisá-los e compreendê-los por completo. Assim sendo, busca-se criar soluções para automatizar este processo, diminuindo a intervenção humana para a descoberta (também conhecida como extração) do conhecimento (MARCACINI; MOURA; REZENDE, 2011, p. 7). Um método utilizado para esse propósito é a Mineração de Texto (MT) definida como um conjunto de técnicas usadas para navegar, organizar e descobrir conhecimento em bases de texto. Camilo e Silva (2009, p. 11-19) descrevem algumas técnicas da MT para descobrir conhecimento, como árvores de decisão, classificação bayesiana, classificação baseada em regras, redes neurais, aprendizado tardio, algoritmos genéticos, conjuntos aproximados e conjuntos nebulosos.
A MT permite a transformação de um grande volume de dados textuais não estruturados em conhecimento útil, muitas vezes inovador para as organizações. O seu uso permite descobrir conhecimento a partir de dados textuais brutos (não estruturados), fornecendo elementos de suporte à gestão do conhecimento, que se refere ao modo de reorganizar como o conhecimento é criado, usado, compartilhado, armazenado e avaliado. Tecnologicamente, o apoio da MT à gestão do conhecimento se dá na transformação do conteúdo de repositórios de informação em conhecimento a ser analisado e compartilhado pela organização (MARCACINI; MOURA; REZENDE, 2011, p. 7).
Aranha et al. (2004, p. 105) afirmam que o Processamento de Linguagem Natural (PLN) é uma técnica muito importante para apoiar a MT. Utilizando conhecimento da área de linguística, o PLN permite aproveitar ao máximo o conteúdo do texto, extraindo entidades e seus relacionamentos, detectando sinônimos, corrigindo palavras escritas de forma errada e ainda desambiguizando-as.
A simples descoberta do conhecimento não resolve o problema da organização, sendo necessário estruturá-lo de forma que ele possa ser utilizado de forma eficiente, formando assim uma base de conhecimento. Esta estruturação é conhecida como Representação do Conhecimento (RC) que pode ser definida como um conjunto de sentenças em uma linguagem formal, para a qual foram definidas uma semântica e um conjunto de regras de inferência capazes de gerar novas sentenças a partir das sentenças disponíveis (HEINZLE, 2011, p. 93).
Um exemplo de formalismo com o propósito de representar o conhecimento é uma ontologia escrita com a linguagem Web Ontology Language (OWL). Uma ontologia escrita em OWL define formalmente um conjunto comum de termos que são usados para descrever e representar um domínio específico. Ela faz uso de alguns mecanismos para representar o conhecimento, como classes e relacionamentos. Assim, a OWL pode ser usada por ferramentas automatizadas para melhorar os serviços avançados como buscas na web e gerenciamento de conhecimento (HEFLIN, 2004).
Um fator que mostra a importância da RC através das ontologias OWL é que a World Wide Web Consortium (W3C) definiu este formalismo como padrão para a criação de ontologias para a web (W3C, 2004). Um especialista em determinado domínio do conhecimento pode criar sua ontologia e compartilhá-la com terceiros, disseminando assim o conhecimento representado pela mesma.
Diante do exposto, este trabalho visa fornecer uma alternativa computacional que descubra e formalize o conhecimento de forma automática para o gestor do conhecimento. Este conhecimento dar-se-á na forma de uma ontologia OWL, com suas classes e relações. Este processo é útil ao gestor do conhecimento, pois muitas vezes as bases textuais são intratáveis manualmente devido ao seu tamanho demasiado, necessitando de uma solução automatizada.