/img alt="Imagem da capa" class="recordcover" src="""/>
Dissertação
Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registros
O volume de informação em formato digital tem aumentado consideravelmente nas últimas décadas, e isso tem causado preocupação entre os administradores de grandes repositórios de dados. Trabalhar com esse crescimento e proteger os dados de forma eficaz é um desafio ainda maior. Em muitos repositór...
Autor principal: | Silva, Davi Guimarães da |
---|---|
Outros Autores: | http://lattes.cnpq.br/0463363430536002 |
Grau: | Dissertação |
Idioma: | por |
Publicado em: |
Universidade Federal do Amazonas
2017
|
Assuntos: | |
Acesso em linha: |
http://tede.ufam.edu.br/handle/tede/5552 |
Resumo: |
---|
O volume de informação em formato digital tem aumentado consideravelmente nas
últimas décadas, e isso tem causado preocupação entre os administradores de grandes
repositórios de dados. Trabalhar com esse crescimento e proteger os dados de forma
eficaz é um desafio ainda maior. Em muitos repositórios, o principal problema é a
existência de dados replicados. Isso pode afetar a qualidade dos dados e a capacidade
de fornecer serviços que atendam as demandas dos seus clientes. Porém, a remoção
de registros replicados é uma tarefa que exige muito tempo e poder de processamento
computacional.
Atualmente, uma das técnicas que vem sendo utilizada de forma eficaz no processo
de remoção de registros replicados é a Programação Genética (PG). Uma das
principais características dessa técnica é que ela exige exemplos para a realização da
etapa de treinamento. Outra característica importante é que a PG exige um alto custo
computacional para ser aplicada, além do esforço para gerar os exemplos do treino.
No problema de deduplicação um dos maiores custos durante a etapa de treino é causado
pela necessidade de comparar cada um dos registros com todos os outros registros
existentes no banco de dados. Assim, o tempo gasto para realizar essas comparações
durante o treino é muito grande.
A partir desse problema, esta dissertação propõe uma abordagem baseada na
combinação de uma técnica de agrupamento e janela deslizante, visando minimizar a
quantidade de comparações exigidas na etapa de treinamento da PG. Experimentos utilizando
dados reais e sintéticos, mostram que é possível reduzir o custo de treinamento
em até 70%, sem uma redução significativa na qualidade das soluções geradas. |