Artigo

Uma metodologia em cascata de quatro etapas para classificar códigos NCM usando técnicas de PLN

This work aims to develop a process to classify the descriptions of products present in electronic invoices (NF-e). This classification is based on the 8 digits of the Common Mercosur Nomenclature (NCM), separated into 4 parts, Chapter, Position, Subheading and item/Subitem. The classification was p...

ver descrição completa

Autor principal: PINHEIRO, Pedro Luiz Braga
Grau: Artigo
Publicado em: 2023
Assuntos:
Acesso em linha: https://bdm.ufpa.br:8443/jspui/handle/prefix/5010
id oai:https:--bdm.ufpa.br:8443:prefix-5010
recordtype dspace
spelling oai:https:--bdm.ufpa.br:8443:prefix-50102023-01-17T03:06:26Z Uma metodologia em cascata de quatro etapas para classificar códigos NCM usando técnicas de PLN PINHEIRO, Pedro Luiz Braga GONZÁLEZ, Marcos Tulio Amaris http://lattes.cnpq.br/9970287865377659 Processamento de linguagem natural Aprendizagem de máquina Classificação de texto Nomenclatura Comum do Mercosul Natural processing language Machine learning Text classification Mercosul Common Nomenclature CNPQ::ENGENHARIAS CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO This work aims to develop a process to classify the descriptions of products present in electronic invoices (NF-e). This classification is based on the 8 digits of the Common Mercosur Nomenclature (NCM), separated into 4 parts, Chapter, Position, Subheading and item/Subitem. The classification was performed using the Support Vector Machine (SVM) algorithm and the Naıve Bayess algorithm together with Natural Language Processing (NLP) techniques, for processing a database of 340,000 different products. The data were divided into 80% training and 20% testing and an accuracy of 90% was obtained for a total of 98 classes. Esse trabalho tem como objetivo desenvolver um processo para classificar as descrições dos produtos presentes nas Notas Ficais eletrônicas (NF-e). Essa classificação e feita sobre os 8 dígitos da Nomenclatura Comum do Mercosul (NCM), separado em 4 partes, Capítulo, Posição, Subposição e item/Subitem. A classificação foi realizada utilizando o algoritmo de Máquina de Vetores de Suporte (SVM) e o algoritmo de Naive Bayes em conjunto com as técnicas de Processamento Natural de Linguagem (PNL), para o processamento de uma base de dados de 340.000 produtos distintos. Os dados foram divididos em 80% treinamento e 20% teste e obteve-se um acurácia de 90% para um total de 98 classes. 2023-01-16T14:29:14Z 2023-01-16T14:29:14Z 2022-09-30 Trabalho de Conclusão de Curso - Graduação - Artigo PINHEIRO, Pedro Luiz Braga. Uma metodologia em cascata de quatro etapas para classificar códigos NCM usando técnicas de PLN. Orientador: Marcos Tulio Amaris Gonzalez. 2022. [18] f. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação) – Campus Universitário de Tucuruí, Universidade Federal do Pará, Tucuruí, 2022. Disponível em: https://bdm.ufpa.br:8443/jspui/handle/prefix/5010. Acesso em:. https://bdm.ufpa.br:8443/jspui/handle/prefix/5010 Acesso Aberto Disponível na Internet via Sagitta
institution Biblioteca Digital de Monografias - UFPA
collection MonografiaUFPA
topic Processamento de linguagem natural
Aprendizagem de máquina
Classificação de texto
Nomenclatura Comum do Mercosul
Natural processing language
Machine learning
Text classification
Mercosul Common Nomenclature
CNPQ::ENGENHARIAS
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
spellingShingle Processamento de linguagem natural
Aprendizagem de máquina
Classificação de texto
Nomenclatura Comum do Mercosul
Natural processing language
Machine learning
Text classification
Mercosul Common Nomenclature
CNPQ::ENGENHARIAS
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
PINHEIRO, Pedro Luiz Braga
Uma metodologia em cascata de quatro etapas para classificar códigos NCM usando técnicas de PLN
topic_facet Processamento de linguagem natural
Aprendizagem de máquina
Classificação de texto
Nomenclatura Comum do Mercosul
Natural processing language
Machine learning
Text classification
Mercosul Common Nomenclature
CNPQ::ENGENHARIAS
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
description This work aims to develop a process to classify the descriptions of products present in electronic invoices (NF-e). This classification is based on the 8 digits of the Common Mercosur Nomenclature (NCM), separated into 4 parts, Chapter, Position, Subheading and item/Subitem. The classification was performed using the Support Vector Machine (SVM) algorithm and the Naıve Bayess algorithm together with Natural Language Processing (NLP) techniques, for processing a database of 340,000 different products. The data were divided into 80% training and 20% testing and an accuracy of 90% was obtained for a total of 98 classes.
author_additional GONZÁLEZ, Marcos Tulio Amaris
author_additionalStr GONZÁLEZ, Marcos Tulio Amaris
format Artigo
author PINHEIRO, Pedro Luiz Braga
title Uma metodologia em cascata de quatro etapas para classificar códigos NCM usando técnicas de PLN
title_short Uma metodologia em cascata de quatro etapas para classificar códigos NCM usando técnicas de PLN
title_full Uma metodologia em cascata de quatro etapas para classificar códigos NCM usando técnicas de PLN
title_fullStr Uma metodologia em cascata de quatro etapas para classificar códigos NCM usando técnicas de PLN
title_full_unstemmed Uma metodologia em cascata de quatro etapas para classificar códigos NCM usando técnicas de PLN
title_sort uma metodologia em cascata de quatro etapas para classificar códigos ncm usando técnicas de pln
publishDate 2023
url https://bdm.ufpa.br:8443/jspui/handle/prefix/5010
_version_ 1787155331340566528
score 11.653393