Informações Principais
     Resumo
     Abstract
     Introdução
     Conclusão
     Download
  
  
  
 
Conclusão
 
 
Acadêmico(a): Henrique Jose Wilbert
Título:  Utilização de clusterização para segmentação de clientes a partir de dados de varejo / Link de acesso à sala da defesa (encurtador.com.br/uFIQW)
 
Conclusão:
A segmentação de clientes permite uma análise aprofundada do comportamento dos clientes de uma empresa.
Com os dados certos, perfis antes obscuros podem ser identificados, a partir de informações outras vezes consideradas
sem utilidade além da camada operacional de vendas e cadastros de uma empresa. Este trabalho teve como iniciativa a
numeração e identificação destes perfis, para isso, utilizou-se o banco de dados de uma empresa real de varejo de roupas,
contendo informações cadastrais e transacionais de 1845 clientes. Foi atribuído a cada cliente suas características com
base no modelo RFM, sendo realizada posteriormente a limpeza e manipulação dos dados, de maneira que se adequem
ao algoritmo de clusterização utilizado, K-means.
Para a validação da solução de clusters bem como sua quantidade, foram utilizados três índices internos de
validação (Silhouette, Calinski-Harabasz e Davies-Bouldin), e quando eles não foram conclusivos o bastante para a
definição da quantidade, utilizou-se os seguintes índices externos de validação: medida de estabilidade global com base
no índice ARI, medida de estabilidade por cluster com base no índice de Jaccard, e o método SLSa a partir da medida de
entropia. Após selecionar três soluções candidatas (com 4, 5 e 6 clusters) a partir da estabilidade global, a estabilidade
por cluster apresentou melhor resultado na solução com 6 clusters, sendo então confirmada e detalhada a partir do método
SLSa, demonstrando o processo de divisão e junção dos clusters ao longo das iterações com diferentes números para o
parâmetro k do algoritmo K-means.
Desta forma, a solução com 6 clusters foi escolhida, e seus clusters foram apresentados num gráfico contendo
suas características RFM, de maneira que seus perfis fossem detectados com base nas inferências realizadas a partir de
seus atributos. Com o perfilamento dos clusters, foram nomeados seis segmentos com base nas suas peculiaridades:
clientes perdidos (com baixa recência, frequência e monetário), clientes em processo de perda (com recência abaixo da
média, frequência e monetário baixos), clientes recentes (com alta recência, porém frequência e monetário baixos),
clientes menos recentes (com alta recência, porém menor que os clientes recentes, e uma frequência e monetário mais
baixos que os clientes recentes), clientes leais (recência, frequência e monetário altos) e por fim os melhores clientes
(melhores atributos RFM possíveis).
Após o destaque do perfil de cada segmento através das variáveis de segmentação RFM, realizou-se uma análise
a partir de variáveis descritivas com base nos dados disponíveis na base de dados. Os segmentos foram avaliados através
de gráficos de mosaico e tabelas com base na sua idade, sexo, tempo de cadastro, compras por estação e devoluções,
sendo apontadas particularidades presentes em cada variável descritiva, como possíveis tendências dos segmentos, fluxos
anormais, quantidades fora do padrão, dentre outras.
Desta maneira, o objetivo de identificar diferentes segmentos de clientes com base em seu comportamento foi
atingido. Apesar dos índices de validação interna não apresentarem um consenso entre o número de clusters naturais, foi
possível obter uma garantia de estabilidade dos segmentos através dos índices externos. Dito isso, é evidente que apesar
de não existirem clusters naturais, ainda assim foi possível obter segmentos significativos, contendo características
destacáveis que os diferenciam entre si, permitindo discernimentos posteriores sobre os tipos de clientes que frequentam
o estabelecimento, extrapolando para os tipos de clientes em geral do ramo de varejo.
Ademais, o presente trabalho contribui para a comunidade acadêmica, pela aplicação de modelos (RFM), índices
(três internos e três externos), métodos (normalização Min-Max, bootstraping, Índice de Jaccard e ARI) e algoritmo Kmeans, em uma base de dados real, analisando sua influência em dados com uma distribuição diferente de dados de
treinamento (cujas características comumente apresentam clusters bem definidos, diferentemente de uma base com dados
reais). Uma conclusão derivada da aplicação de tais técnicas a este conjunto de dados é de que nem sempre os índices de
validação internos apresentam um consenso sobre a quantidade de clusters, necessitando a utilização de outros tipos de
validação. Além disso, foi demonstrado que informações valiosas para o setor de varejo de roupas e possivelmente outros
setores podem ser extraídas de uma base de dados com informações transacionais e cadastrais, indicando um valor
intrínseco à dados que muitas vezes são somente armazenados e raramente analisados em contexto de clusters de clientes.
Diante do exposto, o presente trabalho pode ser complementado a partir das seguintes propostas: utilização do
método RFM em conjunto com K-means aplicado à uma base de dados de um ramo diferente de varejo, como por
exemplo, supermercados, concessionárias, imobiliárias, dentre outras; aplicação de diferentes índices internos e externos
para a validação da qualidade dos clusters sob diferentes visões; utilização de outras variáveis descritivas, como tempo
gasto por compra, linhas de produtos mais comprados e quantidade de produtos por compra; aplicação de questionários,
para utilizar em conjunto com a análise dos perfis, cruzando as variáveis com base no cluster questionado.