TCC - Trabalho de Conclusão de Curso

Informações Principais

Resumo

Abstract

Introdução

Conclusão

Download

Introdução

Acadêmico(a): Leonardo José Correia

Título: Mineração de Dados em Arquivos de Log Gerados por Servidores de Páginas Web

Introdução:

O uso dos Website1 para busca de informações ou realizar transações comerciais têm se tornado comum nos dias de hoje. A web fornece uma nova fonte de dados, denominada como seqüência de cliques, a qual é literalmente, um log2 de cada gesto efetuado por visitante a cada site da web. Nesse contexto, surgem os mecanismos que resgatam esses dados transformando-os em informações propriamente dita.
Estes mecanismos são compostos por técnicas de Data Mining3 (mineração de dados) para extrair tais informações, aplicado as mais diversas áreas de concentração dessas informações. Segundo Xue (2000), os métodos de Data Mining, integrados com o serviço das máquinas de busca web, aumentam a qualidade das buscas. A máquina de busca pode assim, procurar um conjunto de documentos relevantes, que é menor que o conjunto procurado pelos métodos atuais.
Freqüentemente, pesquisadores precisam limpar, condensar e transformar os dados coletados para recuperar e analisar informações úteis. Eles têm usado arquivos de log para analisar o desempenho do sistema, melhorar o sistema de caching e determinar a natureza do tráfego na web. Com esta técnica, analisando e explorando regularmente os registros de log da web, pode-se melhorar a qualidade de entrega de serviços de informação da internet para o usuário final, permitindo o ganho de desempenho dos servidores, identificando consumidores em potencial para o comércio eletrônico. A análise de log também pode ajudar a construir serviços personalizados para usuários, e ainda, registrar sinais diretos de satisfação e descontentamento. O procedimento permitirá responder efetivamente ao cliente individual.
Segundo Tulloch (2001) & Kabir (2002), os gerenciadores de Website IIS e Apache já têm a capacidade de guardar estatísticas desses acessos em arquivos, os chamados logs de acesso. No entanto esses logs têm pouco valor se as informações extraídas não se apresentarem de forma objetiva e gerencial.
1 WebSite é um concentrador de informações que foram publicadas ou postadas em formato HTML.
2 Seqüência de cliques que identificam uma atividade de busca de um assunto na web
3 Área da Computação especializada na mineração de dados.
Pelas inúmeras vantagens existentes em uma arquitetura web, as empresas têm investido na criação de softwares que executam e acessam páginas na Internet, centralizadas em servidores espalhados na rede com o auxílio de um navegador.
Com o sucesso da Internet, tem havido uma proliferação de jogadores, com investimentos econômicos e intelectuais na rede. Todo esse sucesso será alavancado em grande parte, pela qualidade da resposta dos sites comerciais da web a seus visitantes individuais.
Dentre as vantagens existentes em uma arquitetura Web e graças as suas potencialidades, hoje podemos ver nas páginas da Internet, documentos formatados (cores, efeitos e etc...), escutar música, assistir a vídeos, e muito mais. Enfim, através da Internet podemos transferir arquivos e realizar outras inúmeras operações.
Segundo Rodrigues (2000), ao longo do tempo se percebeu que a velocidade de coleta de informações era muito maior que a velocidade de processamento das operações ou análise delas. Num ambiente comercial mutável, torna-se necessário à aplicação de técnicas e ferramentas que agilizem o processo de extração de informações relevantes de grandes volumes de dados.
Entre as técnicas de extração destacamos a metodologia de Descoberta do Conhecimento em Banco de Dados que veio preencher essa lacuna na necessidade de análise desse volume de informação. Para que o conhecimento seja descoberto, técnicas de Data Mining devem ser utilizadas. Nesse contexto que desenvolveremos o trabalho.
A tecnologia provocou mudanças, sendo que, uma delas, refere-se ao aumento da importância da informação no mundo científico e comercial. A informação se tornou um grande diferencial, permitindo, por exemplo, no caso de uma empresa, o auxílio desde a tomada de decisão até a descoberta de fraudes ou perfil de consumidores (FAYYAD et al., 1996).
No entanto, para que as informações sejam extraídas corretamente, é necessária a utilização de técnicas e ferramentas que propiciem a descoberta ou mineração de padrões (MITTCHEL, 1997). Na verdade, a extração de padrões é apenas uma etapa de um processo maior denominado de Extração de Conhecimento de Dados (Knowledge Discovery in Database - KDD), que será apresentado e aplicado no decorrer deste trabalho.
Técnicas Data Mining e descoberta de conhecimento, normalmente são aplicadas em conjunto com Banco de Dados pelo grande volume de dados manipulados. Neste trabalho foram utilizadas técnicas de Regras de Associação, porém, sem o uso de Banco de Dados, neste contexto pois os dados estão armazenados em arquivos de log, não estruturados, já divididos em tamanho limitado, permitindo seu manuseio em memória. Isto torna desnecessário o uso de Banco de Dados para esse tipo de análise.
Este trabalho apresenta o desenvolvimento de um protótipo para extração de conhecimento a partir de dados encontrados em arquivos de log de servidores web. Para isso, foram utilizados os sistemas de aprendizado do paradigma simbólico Apriori que trabalha com a tarefa de associação, disponíveis na ferramenta Waikato Environment Knowledge Analysis - WEKA