/img alt="Imagem da capa" class="recordcover" src="""/>
Dissertação
Seleção de atributos relevantes: aplicando técnicas na base de dados do Herbário Virtual da Flora e dos Fungos
Os herbários virtuais têm como objetivo disseminar informações científicas e contribuir para a conservação e uso sustentável dos recursos biológicos brasileiros. Atualmente integra 120 herbários nacionais e 25 herbários do exterior, juntos disponibilizam mais de 5,4 milhões de registros e mais de...
Autor principal: | Souza, Adriano Honorato de |
---|---|
Outros Autores: | http://lattes.cnpq.br/5140335015459348 |
Grau: | Dissertação |
Idioma: | por |
Publicado em: |
Universidade Federal do Amazonas
2018
|
Assuntos: | |
Acesso em linha: |
http://tede.ufam.edu.br/handle/tede/6232 |
Resumo: |
---|
Os herbários virtuais têm como objetivo disseminar informações científicas e
contribuir para a conservação e uso sustentável dos recursos biológicos brasileiros.
Atualmente integra 120 herbários nacionais e 25 herbários do exterior, juntos disponibilizam
mais de 5,4 milhões de registros e mais de um milhão de imagens, além de várias ferramentas
de livre acesso, abrindo espaço para a aplicação de técnicas de Aprendizagem de Máquina,
entre elas os classificadores. No processo de Aprendizagem de Máquina a Seleção de
Atributos faz parte do pré-processamento de dados e que pode corresponder a 80% da fase da
mineração de dados, para isso se faz necessário um estudo sobre das abordagens utilizadas
para fazer a seleção de um subconjunto de atributos que melhor generalize a base para ser
induzido ao modelo de aprendizado de máquina. O objetivo deste trabalho é aplicar os
processos de seleção de atributos com as seguintes abordagens filtro, wrapper e embutido, na
base de dados do Instituto Nacional de Ciência e Tecnologia – Herbário Virtual da Flora e dos
Fungos, esta base contém 87.732 registros e 51 atributos, sendo 119 coleções e sub-coleções,
86.967 registros online, 80.513 registros georreferenciados, 12.073 espécies aceitas distintas.
A primeira fase dos processos de aprendizado de máquina é o pré-processamento, que
analisará a base de dados e resultará em uma base mais genérica e pronta para aplicação dos
modelos preditivos de classificação, após o filtro do subconjunto de atributos mais relevantes
aplicam-se os algoritmos de Aprendizagem de Máquina, que nesta pesquisa foi: Árvore de
Decisão, Rede Neural Artificial e Regressão Logística. A avalição dos modelos será através
da matriz de confusão utilizando a acurácia e a análise da área sobre a curva ROC. Dentre os
modelos estudados o de Regressão Logística obteve o desempenho de classificação de
acurácia de 77,25%, com a abordagem filtro e 76,25% com a wrapper. |