Dissertação

Seleção de atributos relevantes: aplicando técnicas na base de dados do Herbário Virtual da Flora e dos Fungos

Os herbários virtuais têm como objetivo disseminar informações científicas e contribuir para a conservação e uso sustentável dos recursos biológicos brasileiros. Atualmente integra 120 herbários nacionais e 25 herbários do exterior, juntos disponibilizam mais de 5,4 milhões de registros e mais de...

ver descrição completa

Autor principal: Souza, Adriano Honorato de
Outros Autores: http://lattes.cnpq.br/5140335015459348
Grau: Dissertação
Idioma: por
Publicado em: Universidade Federal do Amazonas 2018
Assuntos:
Acesso em linha: http://tede.ufam.edu.br/handle/tede/6232
id oai:https:--tede.ufam.edu.br-handle-:tede-6232
recordtype dspace
spelling oai:https:--tede.ufam.edu.br-handle-:tede-62322018-03-08T05:03:46Z Seleção de atributos relevantes: aplicando técnicas na base de dados do Herbário Virtual da Flora e dos Fungos Souza, Adriano Honorato de Kanda, Jorge Yoshio http://lattes.cnpq.br/5140335015459348 http://lattes.cnpq.br/9690201622600160 Queiroz Neto, José Pinheiro de Ruy, Fernando Aprendizado de Máquina Herbários nacionais Árvore de Decisão Rede Neural Artificial Regressão Logística CIÊNCIAS AGRÁRIAS Os herbários virtuais têm como objetivo disseminar informações científicas e contribuir para a conservação e uso sustentável dos recursos biológicos brasileiros. Atualmente integra 120 herbários nacionais e 25 herbários do exterior, juntos disponibilizam mais de 5,4 milhões de registros e mais de um milhão de imagens, além de várias ferramentas de livre acesso, abrindo espaço para a aplicação de técnicas de Aprendizagem de Máquina, entre elas os classificadores. No processo de Aprendizagem de Máquina a Seleção de Atributos faz parte do pré-processamento de dados e que pode corresponder a 80% da fase da mineração de dados, para isso se faz necessário um estudo sobre das abordagens utilizadas para fazer a seleção de um subconjunto de atributos que melhor generalize a base para ser induzido ao modelo de aprendizado de máquina. O objetivo deste trabalho é aplicar os processos de seleção de atributos com as seguintes abordagens filtro, wrapper e embutido, na base de dados do Instituto Nacional de Ciência e Tecnologia – Herbário Virtual da Flora e dos Fungos, esta base contém 87.732 registros e 51 atributos, sendo 119 coleções e sub-coleções, 86.967 registros online, 80.513 registros georreferenciados, 12.073 espécies aceitas distintas. A primeira fase dos processos de aprendizado de máquina é o pré-processamento, que analisará a base de dados e resultará em uma base mais genérica e pronta para aplicação dos modelos preditivos de classificação, após o filtro do subconjunto de atributos mais relevantes aplicam-se os algoritmos de Aprendizagem de Máquina, que nesta pesquisa foi: Árvore de Decisão, Rede Neural Artificial e Regressão Logística. A avalição dos modelos será através da matriz de confusão utilizando a acurácia e a análise da área sobre a curva ROC. Dentre os modelos estudados o de Regressão Logística obteve o desempenho de classificação de acurácia de 77,25%, com a abordagem filtro e 76,25% com a wrapper. Virtual herbariums aim to disseminate scientific information and contribute to the conservation and sustainable use of Brazilian biological resources. It currently includes 120 national herbaria and 25 herbariums from abroad, together provide more than 5,4 million records and more than one million images, in addition to several free access tools, opening space for the application of Machine Learning techniques, among them classifiers. In the Machine Learning process, Attribute Selection is part of the pre-processing of data and can correspond to 80% of the data mining phase, for this it is necessary to study the approaches used to make the selection of a subset of attributes that better generalize the basis to be induced to the model of machine learning. The objective of this work is to apply the attributes selection processes with the following filter, wrapper and embedded approaches in the National Institute of Science and Technology (NIST) - Virtual Herbarium of Flora and Fungi, this base contains 87,732 records and 51 features, with 119 collections and sub-collections, 86,967 online records, 80,513 georeferenced records, 12,073 different accepted species. The first phase of machine learning processes is the pre-processing, which will analyze the database and will result in a more general and ready basis for the application of the predictive models of classification, after the filter of the most relevant subset of attributes, the Machine Learning algorithms are applied, which in this research was: Decision Tree, Network Neural Artificial and Logistic Regression. The evaluation of the models will be through the confusion matrix using the accuracy and the analysis of the area on the ROC curve. Among the models studied, the Logistic Regression was the one that obtained the performance with a total accuracy of 77.25%, with the filter approach and 76.25% with the wrapper. 2018-03-07T18:10:27Z 2017-09-29 Dissertação SOUZA, Adriano Honorato de. Seleção de atributos relevantes: aplicando técnicas na base de dados do Herbário Virtual da Flora e dos Fungos. 2017. 81 f. Dissertação (Mestrado em Ciência e Tecnologia para Recursos Amazônicos) - Universidade Federal do Amazonas, Itacoatiara, 2017. http://tede.ufam.edu.br/handle/tede/6232 por Acesso Aberto http://creativecommons.org/licenses/by-nc-nd/4.0/ application/pdf Universidade Federal do Amazonas Instituto de Ciências Exatas e Tecnologia - Itacoatiara Brasil UFAM Programa de Pós-graduação em Ciência e Tecnologia para Recursos Amazônicos
institution TEDE - Universidade Federal do Amazonas
collection TEDE-UFAM
language por
topic Aprendizado de Máquina
Herbários nacionais
Árvore de Decisão
Rede Neural Artificial
Regressão Logística
CIÊNCIAS AGRÁRIAS
spellingShingle Aprendizado de Máquina
Herbários nacionais
Árvore de Decisão
Rede Neural Artificial
Regressão Logística
CIÊNCIAS AGRÁRIAS
Souza, Adriano Honorato de
Seleção de atributos relevantes: aplicando técnicas na base de dados do Herbário Virtual da Flora e dos Fungos
topic_facet Aprendizado de Máquina
Herbários nacionais
Árvore de Decisão
Rede Neural Artificial
Regressão Logística
CIÊNCIAS AGRÁRIAS
description Os herbários virtuais têm como objetivo disseminar informações científicas e contribuir para a conservação e uso sustentável dos recursos biológicos brasileiros. Atualmente integra 120 herbários nacionais e 25 herbários do exterior, juntos disponibilizam mais de 5,4 milhões de registros e mais de um milhão de imagens, além de várias ferramentas de livre acesso, abrindo espaço para a aplicação de técnicas de Aprendizagem de Máquina, entre elas os classificadores. No processo de Aprendizagem de Máquina a Seleção de Atributos faz parte do pré-processamento de dados e que pode corresponder a 80% da fase da mineração de dados, para isso se faz necessário um estudo sobre das abordagens utilizadas para fazer a seleção de um subconjunto de atributos que melhor generalize a base para ser induzido ao modelo de aprendizado de máquina. O objetivo deste trabalho é aplicar os processos de seleção de atributos com as seguintes abordagens filtro, wrapper e embutido, na base de dados do Instituto Nacional de Ciência e Tecnologia – Herbário Virtual da Flora e dos Fungos, esta base contém 87.732 registros e 51 atributos, sendo 119 coleções e sub-coleções, 86.967 registros online, 80.513 registros georreferenciados, 12.073 espécies aceitas distintas. A primeira fase dos processos de aprendizado de máquina é o pré-processamento, que analisará a base de dados e resultará em uma base mais genérica e pronta para aplicação dos modelos preditivos de classificação, após o filtro do subconjunto de atributos mais relevantes aplicam-se os algoritmos de Aprendizagem de Máquina, que nesta pesquisa foi: Árvore de Decisão, Rede Neural Artificial e Regressão Logística. A avalição dos modelos será através da matriz de confusão utilizando a acurácia e a análise da área sobre a curva ROC. Dentre os modelos estudados o de Regressão Logística obteve o desempenho de classificação de acurácia de 77,25%, com a abordagem filtro e 76,25% com a wrapper.
author_additional Kanda, Jorge Yoshio
author_additionalStr Kanda, Jorge Yoshio
format Dissertação
author Souza, Adriano Honorato de
author2 http://lattes.cnpq.br/5140335015459348
author2Str http://lattes.cnpq.br/5140335015459348
title Seleção de atributos relevantes: aplicando técnicas na base de dados do Herbário Virtual da Flora e dos Fungos
title_short Seleção de atributos relevantes: aplicando técnicas na base de dados do Herbário Virtual da Flora e dos Fungos
title_full Seleção de atributos relevantes: aplicando técnicas na base de dados do Herbário Virtual da Flora e dos Fungos
title_fullStr Seleção de atributos relevantes: aplicando técnicas na base de dados do Herbário Virtual da Flora e dos Fungos
title_full_unstemmed Seleção de atributos relevantes: aplicando técnicas na base de dados do Herbário Virtual da Flora e dos Fungos
title_sort seleção de atributos relevantes: aplicando técnicas na base de dados do herbário virtual da flora e dos fungos
publisher Universidade Federal do Amazonas
publishDate 2018
url http://tede.ufam.edu.br/handle/tede/6232
_version_ 1781302294118137856
score 11.653393