Informações Principais
     Resumo
     Abstract
     Introdução
     Conclusão
     Download
  
  
  
 
Introdução
 
 
Acadêmico(a): Henrique Jose Wilbert
Título:  Utilização de clusterização para segmentação de clientes a partir de dados de varejo / Link de acesso à sala da defesa (encurtador.com.br/uFIQW)
 
Introdução:
Com a evolução da tecnologia de informação a partir dos anos 90, grandes empresas adotaram sistemas de
gerenciamento na forma de softwares Enterprise Resource Planning (ERP). Estes softwares auxiliam em suas rotinas à
nível operacional, seja no controle do estoque, fiscal, financeiro, transacional e até recursos humanos (NIJHER, 2014). A
partir disso, alcançou-se um patamar de eficiência nunca concebido, visto que registros antes realizados em papel e caneta,
passaram a ser produzidos automaticamente. Ainda segundo os autores, em paralelo a informatização desses processos,
houve também um crescimento da quantidade de dados armazenados referentes à produtos, clientes, transações, gastos e
receitas.
Diante deste contexto, avançaram-se também as táticas de marketing direto, como por exemplo, o envio de
catálogos por correio, até ofertas altamente objetivas para indivíduos selecionados, cujas informações transacionais
estavam presentes na base de dados. O foco das relações empresa-cliente volta-se então à clientes que já possuem um
cadastro com a empresa, visto que o custo para adquirir um cliente novo através de publicidade é muito maior que o custo
de alimentar uma relação já existente (SRIVASTAVA; CHANDRA; SRIVASTAVA, 2019).
Segundo Reinartz, Thomas e Kumar (2005, p. 77), quando empresas tratam os gastos entre aquisição e retenção
de clientes, destinar menos recursos para a retenção impactará em uma lucratividade menor à longo prazo, comparandose a investimentos menores em aquisição de clientes. Ainda segundo os autores, no conceito de relações de retenção,
atribui-se grande ênfase à lealdade e lucratividade de um cliente, sendo lealdade a tendência do cliente comprar com a
empresa e a lucratividade, a medida geral de quanto lucro um cliente traz à empresa através de suas compras.
De acordo com Nguyen, Sherif e Newby (2007, p. 114), com o avanço da gerência das relações com clientes
foram abertas novas vias pelas quais sua lealdade e lucratividade pode ser cultivada, atraindo uma crescente demanda por
parte de empresas, visto que a adoção destes meios permite que as organizações melhorem seu serviço ao consumidor,
consequentemente gerando renda. Com isso, diferentes ferramentas acabam sendo utilizadas, como sistemas de
recomendação que, geralmente em ramos e-commerce, levam em conta várias características pertinentes ao
comportamento do cliente, construindo um perfil próprio que será utilizado para realizar a recomendação de um produto
que talvez seja de seu interesse. Outra ferramenta pertinente à lucros e lealdade é a segmentação, que visa separar uma
única massa de clientes em segmentos homogêneos em termos de comportamento, permitindo o desenvolvimento de
campanhas, decisões e estratégias de marketing especializadas à cada grupo de acordo com suas características
(TSIPTSIS; CHORIANOPOULOS, 2009, p.4).
Roberts, Kayande e Stremersch (2014) afirmam que as ferramentas de segmentação apresentam o maior impacto
dentre as decisões de marketing disponíveis, indicando uma grande procura por tais ferramentas ao longo da próxima
década. Dolnicar, Leisch e Grün (2018) indagam que a segmentação de clientes apresenta muitos benefícios caso
implementada corretamente, dentre os principais está a introspecção por parte da empresa sobre os tipos de clientes que
ela possui, e consequentemente, seus comportamentos e necessidades. Por outro lado, Dolnicar, Leisch e Grün (2018)
também destacam que caso a segmentação não seja aplicada corretamente, a execução da prática em sua totalidade gera um desperdício de recursos, visto que a falha retorna segmentos não condizentes com o comportamento real, deixando a
empresa que aplicou com nenhuma informação válida sobre os clientes que ela possui.
Em relação a segmentação de clientes, algumas métricas tornam-se relevantes nos contextos aos quais estão
inseridas. Segundo Kumar (2008, p. 29), o modelo Recency Frequency Monetary (RFM), é utilizado em empresas de
venda por catálogo, enquanto empresas de high-tech tendem a usar Share of Wallet (SOW) para implementar suas
estratégias de marketing. Já o modelo Past Customer Value (PCV), geralmente é utilizado em empresas de serviços
financeiros. Dentre os modelos citados, o RFM é o que possui maior facilidade de aplicação em diversas áreas de
comércio, varejo e supermercados, visto que são necessários apenas os dados transacionais (vendas) dos clientes, dos
quais são obtidos os atributos de Recência (R), Frequência (F) e Monetário (M).
A partir desses dados, segundo Tsiptsis e Chorianopoulos (2009, p. 335), é possível detectar bons clientes a partir
das melhores pontuações de RFM. Se o cliente efetuou uma compra recentemente, seu atributo R será alto. Caso ele
compre muitas vezes ao longo de um determinado período, seu atributo F será maior. Por fim, caso seus gastos totais
forem significativos, terá um atributo M alto. Ao categorizar o cliente dentro destas três características, é possível obter
uma hierarquia de importância, tendo os clientes que possuem valores RFM altos no topo, e clientes que possuem valores
baixos na base. Apesar destas possibilidades para a segmentação, o modelo padrão original é um tanto quanto arbitrário,
segmentando os clientes em quintis, cinco grupos com 20% dos clientes, não atentando-se às nuances e todas a
interpretações que a base de clientes pode possuir. Além disso, o método também pode produzir uma grande quantidade
de grupos (até 125), que por muitas vezes, não representam significativamente os clientes de um estabelecimento.
Com o aumento da quantidade de dados e do trabalho manual requerido para segmentação, Alelyani, Tang e Liu
(2014) indagam que a automatização desse processo se tornou indispensável, tendo como uma de suas principais técnicas,
o clustering. Esta técnica consiste em categorizar dados sem rótulo em grupos chamados clusters, cujos integrantes são
parecidos entre si e diferentes de integrantes de outros clusters, com base nas características analisadas. Dentre os
algoritmos de clusterização, o algoritmo K-means é um dos mais populares, sendo simples de implementar e dispondo de
extensos estudos sobre seus comportamentos (FRÄNTI; SIERANOJA, 2019). No contexto de avaliação, Hämäläinen,
Jauhiainen e Kärkkäinen (2017) destacam que a qualidade de uma solução pode ser medida através dos índices de
validação, que consideram a compactação dos dados dos clusters e sua separação com outros clusters, permitindo a
obtenção de um grau de certeza maior ao considerar um resultado de segmentação advindo de um algoritmo de
clusterização.
Diante da importância da segmentação de clientes, e da crucialidade de extração de suas características
comportamentais de maneira efetiva, este trabalho apresenta a criação de um protótipo que utilize os atributos do modelo
RFM em conjunto com o algoritmo de clusterização K-means. Cuja função será extrair de maneira automática as
informações de uma base de dados real de varejo, com o objetivo de identificar diferentes segmentos de clientes com base
em seus comportamentos. Para a validação da quantidade de clusters foram utilizados três índices internos (Silhouette,
Calinski-Harabasz e Davies-Bouldin) e três índices externos (estabilidade global, estabilidade por cluster e estabilidade
SLSa - Segment Level Stability across solutions), para evidenciar a qualidade das soluções obtidas.