Dissertação

Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registros

O volume de informação em formato digital tem aumentado consideravelmente nas últimas décadas, e isso tem causado preocupação entre os administradores de grandes repositórios de dados. Trabalhar com esse crescimento e proteger os dados de forma eficaz é um desafio ainda maior. Em muitos repositór...

ver descrição completa

Autor principal: Silva, Davi Guimarães da
Outros Autores: http://lattes.cnpq.br/0463363430536002
Grau: Dissertação
Idioma: por
Publicado em: Universidade Federal do Amazonas 2017
Assuntos:
Acesso em linha: http://tede.ufam.edu.br/handle/tede/5552
Resumo:
O volume de informação em formato digital tem aumentado consideravelmente nas últimas décadas, e isso tem causado preocupação entre os administradores de grandes repositórios de dados. Trabalhar com esse crescimento e proteger os dados de forma eficaz é um desafio ainda maior. Em muitos repositórios, o principal problema é a existência de dados replicados. Isso pode afetar a qualidade dos dados e a capacidade de fornecer serviços que atendam as demandas dos seus clientes. Porém, a remoção de registros replicados é uma tarefa que exige muito tempo e poder de processamento computacional. Atualmente, uma das técnicas que vem sendo utilizada de forma eficaz no processo de remoção de registros replicados é a Programação Genética (PG). Uma das principais características dessa técnica é que ela exige exemplos para a realização da etapa de treinamento. Outra característica importante é que a PG exige um alto custo computacional para ser aplicada, além do esforço para gerar os exemplos do treino. No problema de deduplicação um dos maiores custos durante a etapa de treino é causado pela necessidade de comparar cada um dos registros com todos os outros registros existentes no banco de dados. Assim, o tempo gasto para realizar essas comparações durante o treino é muito grande. A partir desse problema, esta dissertação propõe uma abordagem baseada na combinação de uma técnica de agrupamento e janela deslizante, visando minimizar a quantidade de comparações exigidas na etapa de treinamento da PG. Experimentos utilizando dados reais e sintéticos, mostram que é possível reduzir o custo de treinamento em até 70%, sem uma redução significativa na qualidade das soluções geradas.