Informações Principais
     Resumo
     Abstract
     Introdução
     Conclusão
     Download
  
  
  
 
Introdução
 
 
Acadêmico(a): Rafael Semann
Título: FERRAMENTA PARA PREDIÇÃO DE DADOS PROEMINENTES DE SISTEMAS RH
 
Introdução:
Os Sistemas de Informação (SI) passaram por uma grande evolução ao longo dos anos, de meros sistemas de controle transacionais se tornando ferramentas indispensáveis no crescimento e desenvolvimento de empresas. De acordo com Quintella e Soares Junior (2009), com o avanço tecnológico, a difusão dos computadores foi aumentando, bem como sua capacidade de coleta e armazenamento de dados. Essa difusão citada pelos autores propiciou a evolução e aperfeiçoamento dos SI.
Atualmente, no Brasil, os SI compõem um mercado que movimenta um grande volume de investimentos, ultrapassando o montante de 12 bilhões de dólares, somente em 2014, com crescimento de 12,6 % com relação ao ano anterior, dados da Associação Brasileira das Empresas de Software (2015). Com tanto potencial, ainda existe pouca exploração dos dados contidos em um sistema, visando auxiliar o usuário nas tomadas de decisão. A afirmação de Quintella e Soares Junior (2009) justifica tal fato, pois, de acordo com os autores, não houve aproveitamento total da capacidade de utilização dos dados. Sendo assim, a necessidade por sistemas que façam melhor uso dessas informações torna-se importante.
Os sistemas de RH são um exemplo de sistemas que possuem uma grande quantidade de informações armazenadas com potencial para exploração, que, contudo, são pouco utilizadas. Verificando os números dos sistemas de RH se percebe que esse é um segmento na qual se deve investir para um avanço dos mesmos. Somente em 2013 no Brasil, o mercado de sistemas de RH obteve uma receita de mais de 518 milhões de reais, dados da Série estudos.
Sistemas de RH podem ser definidos como sistemas integrados usados para coletar, armazenar e analisar informações sobre recursos humanos de uma organização (HENDRICKSON, 2003). Atualmente os sistemas de RH apresentam uma grande quantidade de informações, porém estas são pouco utilizadas pelos gestores para auxiliar na tomada de decisões, assim, a decisão realizada possui baixa qualidade e precisão, isto porque, segundo Chien e Chen (2008), a aplicação de mineração de dados não tem atraído muita atenção das pessoas no campo de Recursos Humanos.
Por outro lado, a mineração de dados através de suas técnicas que se propõem a explorar e encontrar padrões dentro de grandes quantidades de informações, poderia auxiliar no processo de tomada de decisão. Isto porque, “A mineração de dados é o processo de descoberta automática de informações úteis em grandes depósitos de dados.” (TAN; STEINBACH; KUMAR, 2009, p.3). Portanto, o uso da mineração de dados torna possível encontrar relacionamentos entre os dados de um sistema de RH, bem como criar modelos de previsões para mostrar as saídas voluntárias, por exemplo.
Para realizar a descoberta e processamento das informações dentro da mineração de dados existe uma série de técnicas que podem ser utilizadas. Dentro destas variadas técnicas, será utilizada a técnica de árvore geradora, pois de acordo com Maimon e Rokach (2007) a mesma visa encontrar a melhorar estratégia para alcançar o objetivo desejado, ou seja, privilegia os dados mais relevantes em níveis superiores.
Dentro de uma base de dados de um sistema RH as informações podem encontrar-se nos mais variados formatos. Sendo assim, existe uma grande quantidade de informações que devem ser introduzidas na árvore de decisão, tais como, idade do funcionário, escolaridade, entre outros. A utilização do algoritmo C4.5 possibilita que o dado inserido na árvore seja classificado de acordo com sua importância, com relação ao objetivo desejado. Para que essa classificação seja possível. Quinlan (1993), sugeriu a utilização da entropia, sendo esta uma medida que indica o grau de aleatoriedade do atributo, permitindo assim que os dados mais consistentes fiquem nos níveis superiores quando na indução da árvore.
Contudo o algoritmo C4.5 não consegue utilizar um atributo de texto descritivo para a indução da árvore geradora, uma vez que dentro deste existem várias informações dispersas. Os atributos com textos descritivos, em geral nos sistemas de RH, armazenam entrevistas demissionais, avaliações de desempenho, entre outros, informações essas que são muito relevantes no contexto. Para evitar que este dado não seja desprezado como atributo, a mineração de texto é utilizada antes da indução da árvore.
“O objetivo principal da mineração de texto é a análise e descobrimento de padrões interessantes, incluindo tendências e valores discrepantes [...]” (AGGARWAL; ZHAI, 2012, p.2). Para realizar essa busca de tendências e categorização de palavras dentro de textos, devem ser realizadas técnicas como a redução adverbial, retirada de sufixos, singularização das palavras, entre outros. Além disto, um passo muito importante é a criação de uma tabela de sinônimos, visando assim agrupar um conjunto de palavras que possuem significado semelhante. Por exemplo, as palavras “gestor”, “líder”, “gerente” podem ser generalizadas para “chefe”, assim gerando uma melhor precisão quando utilizado na indução da árvore geradora.
Dentro desse contexto, será desenvolvida uma ferramenta que utilizará a mineração de dados, através da técnica de indução de árvore de decisão e com isso encontrar padrões nos dados provenientes de um sistema de RH. Esta ferramenta também fará uso do algoritmo C4.5 para realizar a indução da árvore geradora, permitindo assim o fornecimento de um melhor agrupamento dos dados, bem como o uso da mineração de texto para permitir que os textos de entrevistas demissionais possam ser aproveitados como atributos na árvore geradora. Todas essas técnicas em conjunto serão aplicadas com o objetivo de mostrar os dados encontrados na melhor forma possível para auxiliar na tomada de decisão.