Tese

Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados

The data analysis process includes information acquisition and organization in order to obtain knowledge from them, bringing scientific advances in various fields, as well as providing competitive advantages to corporations. In this context, an ubiquitous problem in the area deserves attention, t...

ver descrição completa

Autor principal: LOBATO, Fábio Manoel França
Grau: Tese
Idioma: por
Publicado em: Universidade Federal do Pará 2017
Assuntos:
Acesso em linha: http://repositorio.ufpa.br/jspui/handle/2011/7267
id ir-2011-7267
recordtype dspace
spelling ir-2011-72672021-10-22T15:19:03Z Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados LOBATO, Fábio Manoel França SANTANA, Ádamo Lima de http://lattes.cnpq.br/4073088744952858 Computação evolutiva Imputação múltipla de dados Algoritmos genéticos Algoritmos genéticos multiobjetivo dados ausentes Multiple data imputation Missing data Evolutionary computing Genetics algorithms Multi-objectivs genetics algorithms CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO The data analysis process includes information acquisition and organization in order to obtain knowledge from them, bringing scientific advances in various fields, as well as providing competitive advantages to corporations. In this context, an ubiquitous problem in the area deserves attention, the missing data, since most of the data analysis techniques can not deal satisfactorily with this problem, which negatively impacts the final results. In order to avoid the harmful effects of missing data, several studies have been proposed in the areas of statistical analysis and machine learning, especially the study of Multiple Data Imputation, which consists in the missing data substitution by plausible values. This methodology can be seen as a combinatorial optimization problem, where the goal is to find candidate values to substitute the missing ones in order to reduce the bias imposed by this issue. Metaheuristics, in particular, methods based in evolutionary computing have been successfully applied in combinatorial optimization problems. Despite the recent advances in this area, it is perceived some shortcomings in the modeling of imputation methods based on evolutionary computing. Aiming to fill these gaps in the literature, this thesis presents a description of multiple data imputation as a combinatorial optimization problem and proposes imputation methods based on evolutionary computing. In addition, due to the limitations found in the methods presented in the recent literature, and the necessity of adoption of different evaluation measures to assess the imputation methods performance, a multi-objective genetic algorithm for data imputation in pattern classification context is also proposed. This method proves to be flexible regarding to data types and avoid the complete-case analysis. Because the flexibility of the proposed approach, it is also possible to use it in other scenarios such as the unsupervised learning, multi-label classification and time series analysis. CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior A análise de dados envolve aquisição e organização de informação com o objetivo de se obter conhecimento a partir deles, propiciando avanços científicos nos mais variados campos, bem como provendo vantagens competitivas às corporações. Neste âmbito, um problema ubíquo na área merece destaque, os valores ausentes, pois a maior parte das técnicas de análise de dados não consegue lidar de forma satisfatória com dados incompletos, impactando negativamente o resultado final. Visando contornar os efeitos danosos desta problemática, diversos trabalhos vêm sendo desenvolvidos nas áreas de análise estatística e aprendizado de máquina, com destaque para o estudo de métodos de Imputação Múltipla de Dados (IMD), que consiste no preenchimento dos dados ausentes por valores plausíveis. Tal metodologia pode ser vista como um problema de otimização combinatória, onde buscam-se valores candidatos à imputação de forma a reduzir o viés imposto por esta problemática. Meta-heurísticas, em especial, métodos baseados em Computação Evolucionária (CE) têm sido aplicadas com sucesso em problemas de otimização combinatórios. Apesar dos recentes avanços na área, percebe-se algumas falhas na modelagem dos métodos de imputação baseados em CE existentes. Visando preencher tais lacunas encontradas na literatura, esta tese apresenta uma descrição da IMD como um problema de otimização combinatória e propõe métodos baseados em CE neste contexto. Além disso, em virtude das falhas encontradas na modelagem dos métodos recentemente propostos na literatura e da necessidade de se adotar diferentes medidas de desempenho para avaliar a eficiência dos métodos de imputação, também é proposto neste projeto de tese um algoritmo genético multiobjetivo para a imputação de dados no contexto de classificação de padrões. Este método mostra-se flexível quanto aos tipos de dados, além de evitar a análise de caso completo. Dado a flexibilidade da abordagem proposta, é possível ainda utilizá-lo em outros cenários como no aprendizado não supervisionado, classificação multirrótulo e em análise de séries temporais. 2017-01-10T16:57:42Z 2017-01-10T16:57:42Z 2016-02-16 Tese LOBATO, Fábio Manoel França. Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados. Orientador: Ádamo Lima de Santana. 2016. 138 f. Tese (Doutorado em Engenharia Elétrica.) - Instituto de Tecnologia, Universidade Federal do Pará, Belém, 2016. Disponível em: http://repositorio.ufpa.br/jspui/handle/2011/7267. Acesso em:. http://repositorio.ufpa.br/jspui/handle/2011/7267 por Acesso Aberto application/pdf Universidade Federal do Pará Brasil Instituto de Tecnologia UFPA Programa de Pós-Graduação em Engenharia Elétrica
institution Repositório Institucional - Universidade Federal do Pará
collection RI-UFPA
language por
topic Computação evolutiva
Imputação múltipla de dados
Algoritmos genéticos
Algoritmos genéticos multiobjetivo
dados ausentes
Multiple data imputation
Missing data
Evolutionary computing
Genetics algorithms
Multi-objectivs genetics algorithms
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
spellingShingle Computação evolutiva
Imputação múltipla de dados
Algoritmos genéticos
Algoritmos genéticos multiobjetivo
dados ausentes
Multiple data imputation
Missing data
Evolutionary computing
Genetics algorithms
Multi-objectivs genetics algorithms
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
LOBATO, Fábio Manoel França
Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados
topic_facet Computação evolutiva
Imputação múltipla de dados
Algoritmos genéticos
Algoritmos genéticos multiobjetivo
dados ausentes
Multiple data imputation
Missing data
Evolutionary computing
Genetics algorithms
Multi-objectivs genetics algorithms
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
description The data analysis process includes information acquisition and organization in order to obtain knowledge from them, bringing scientific advances in various fields, as well as providing competitive advantages to corporations. In this context, an ubiquitous problem in the area deserves attention, the missing data, since most of the data analysis techniques can not deal satisfactorily with this problem, which negatively impacts the final results. In order to avoid the harmful effects of missing data, several studies have been proposed in the areas of statistical analysis and machine learning, especially the study of Multiple Data Imputation, which consists in the missing data substitution by plausible values. This methodology can be seen as a combinatorial optimization problem, where the goal is to find candidate values to substitute the missing ones in order to reduce the bias imposed by this issue. Metaheuristics, in particular, methods based in evolutionary computing have been successfully applied in combinatorial optimization problems. Despite the recent advances in this area, it is perceived some shortcomings in the modeling of imputation methods based on evolutionary computing. Aiming to fill these gaps in the literature, this thesis presents a description of multiple data imputation as a combinatorial optimization problem and proposes imputation methods based on evolutionary computing. In addition, due to the limitations found in the methods presented in the recent literature, and the necessity of adoption of different evaluation measures to assess the imputation methods performance, a multi-objective genetic algorithm for data imputation in pattern classification context is also proposed. This method proves to be flexible regarding to data types and avoid the complete-case analysis. Because the flexibility of the proposed approach, it is also possible to use it in other scenarios such as the unsupervised learning, multi-label classification and time series analysis.
author_additional SANTANA, Ádamo Lima de
author_additionalStr SANTANA, Ádamo Lima de
format Tese
author LOBATO, Fábio Manoel França
title Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados
title_short Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados
title_full Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados
title_fullStr Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados
title_full_unstemmed Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados
title_sort estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados
publisher Universidade Federal do Pará
publishDate 2017
url http://repositorio.ufpa.br/jspui/handle/2011/7267
_version_ 1832604909580582912
score 11.755432