Dissertação

Classificação de produtos com base em descrições textuais

Muitas aplicações de e-commerce lidam com grandes conjuntos de dados de produtos que precisam ser classificados em uma taxonomia predefinida de categorias. Além disso, em alguns cenários práticos, o conjunto de dados é volátil, com novos produtos sendo frequentemente lançados e introduzidos nas cate...

ver descrição completa

Autor principal: Gomes, Manoel Aquino
Outros Autores: http://lattes.cnpq.br/7322923092065512
Grau: Dissertação
Idioma: por
Publicado em: Universidade Federal do Amazonas 2021
Assuntos:
Acesso em linha: https://tede.ufam.edu.br/handle/tede/8295
Resumo:
Muitas aplicações de e-commerce lidam com grandes conjuntos de dados de produtos que precisam ser classificados em uma taxonomia predefinida de categorias. Além disso, em alguns cenários práticos, o conjunto de dados é volátil, com novos produtos sendo frequentemente lançados e introduzidos nas categorias existentes. A classificação de produtos tem se tornado uma tarefa essencial para o bom funcionamento de plataformas de vendas em ambientes de e-commerce, facilitando a organização e o acesso à informação nos sites das empresas. Nesta dissertação, estudamos e discutimos métodos eficientes e eficazes para a classificação de produtos. Apesentamos uma solução rápida e competitiva para classificação baseada em Language Models para classificar produtos e discutimos o uso de um método de classificação proposto na literatura que tem sido usado com sucesso em outras aplicações, o FastText, adaptando-o e estudando-o no cenário de classificação de produtos. Estudamos formas de combinar os métodos propostos à segmentação da descrição de produtos, uma ideia utilizada anteriormente na literatura, e apresentamos experimentos com 3 bases de dados de produtos onde comparamos o desempenho das alternativas estudadas. Os resultados apresentados indicam que tanto o método baseado em language models quanto o FastText apresentam resultados qualitativos bem competitivos quando comparados a um modelo de classificação baseado em redes neurais que é considerado estado-da-arte. Os resultados foram obtidos com uma redução significativa nos custos e no tempo de processamento necessários para realizar os experimentos nas 3 bases de dados estudadas.