Dissertação

Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registros

O volume de informação em formato digital tem aumentado consideravelmente nas últimas décadas, e isso tem causado preocupação entre os administradores de grandes repositórios de dados. Trabalhar com esse crescimento e proteger os dados de forma eficaz é um desafio ainda maior. Em muitos repositór...

ver descrição completa

Autor principal: Silva, Davi Guimarães da
Outros Autores: http://lattes.cnpq.br/0463363430536002
Grau: Dissertação
Idioma: por
Publicado em: Universidade Federal do Amazonas 2017
Assuntos:
Acesso em linha: http://tede.ufam.edu.br/handle/tede/5552
id oai:https:--tede.ufam.edu.br-handle-:tede-5552
recordtype dspace
spelling oai:https:--tede.ufam.edu.br-handle-:tede-55522017-03-08T05:04:03Z Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registros Silva, Davi Guimarães da Silva, Altigran Soares da http://lattes.cnpq.br/0463363430536002 http://lattes.cnpq.br/1840067885522796 Silva, Altigran Soares da Oliveira, David Braga Fernandes de Carvalho, Moisés Gomes de Programação Genética Aprendizagem de Máquina Repositório de dados Técnicas de Agrupamento Deduplicação de Registros CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO O volume de informação em formato digital tem aumentado consideravelmente nas últimas décadas, e isso tem causado preocupação entre os administradores de grandes repositórios de dados. Trabalhar com esse crescimento e proteger os dados de forma eficaz é um desafio ainda maior. Em muitos repositórios, o principal problema é a existência de dados replicados. Isso pode afetar a qualidade dos dados e a capacidade de fornecer serviços que atendam as demandas dos seus clientes. Porém, a remoção de registros replicados é uma tarefa que exige muito tempo e poder de processamento computacional. Atualmente, uma das técnicas que vem sendo utilizada de forma eficaz no processo de remoção de registros replicados é a Programação Genética (PG). Uma das principais características dessa técnica é que ela exige exemplos para a realização da etapa de treinamento. Outra característica importante é que a PG exige um alto custo computacional para ser aplicada, além do esforço para gerar os exemplos do treino. No problema de deduplicação um dos maiores custos durante a etapa de treino é causado pela necessidade de comparar cada um dos registros com todos os outros registros existentes no banco de dados. Assim, o tempo gasto para realizar essas comparações durante o treino é muito grande. A partir desse problema, esta dissertação propõe uma abordagem baseada na combinação de uma técnica de agrupamento e janela deslizante, visando minimizar a quantidade de comparações exigidas na etapa de treinamento da PG. Experimentos utilizando dados reais e sintéticos, mostram que é possível reduzir o custo de treinamento em até 70%, sem uma redução significativa na qualidade das soluções geradas. The amount of information available through digital media has increased considerably in recent decades. This fact causes concern among managers of large data repositories. Dealing with this growth and protect the data effectively is an even greater challenge. In many repositories, one of the main problems is the existence of replicated data. This can impact the quality of data and the ability to provide services able to meet the demands of its customers. However, the removal of replicated records is a task that requires a lot of time and processing effort. Nowadays, one of the techniques that has been effectively applied in the task of identify records that are replicated is the Genetic Programming (GP). One of the main requirements of this technique is the use examples (usually created manually) in its training step. Another GP major requirement is its processing time. This happens because during the training step each record is compared to all other existing ones in the data repository. Thus, the time required to perform all these comparisons during the GP training step can be very costly, even for small repositories. For those reasons, this dissertation proposes a novel approach based in a strategy the combines a clustering technique with a sliding window, aiming at minimize the number of comparisons required in the PG training stage. Experiments using synthetic and real datasets show that it is possible to reduce the time cost of GP training step up to 70%, without a significant reduction in the quality of generated solutions 2017-03-07T10:02:39Z 2016-08-03 Dissertação SILVA, Davi Guimarães da. Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registros. 2016. 80 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2016. http://tede.ufam.edu.br/handle/tede/5552 por Acesso Aberto http://creativecommons.org/licenses/by-nc-nd/4.0/ application/pdf Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática
institution TEDE - Universidade Federal do Amazonas
collection TEDE-UFAM
language por
topic Programação Genética
Aprendizagem de Máquina
Repositório de dados
Técnicas de Agrupamento
Deduplicação de Registros
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
spellingShingle Programação Genética
Aprendizagem de Máquina
Repositório de dados
Técnicas de Agrupamento
Deduplicação de Registros
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Silva, Davi Guimarães da
Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registros
topic_facet Programação Genética
Aprendizagem de Máquina
Repositório de dados
Técnicas de Agrupamento
Deduplicação de Registros
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
description O volume de informação em formato digital tem aumentado consideravelmente nas últimas décadas, e isso tem causado preocupação entre os administradores de grandes repositórios de dados. Trabalhar com esse crescimento e proteger os dados de forma eficaz é um desafio ainda maior. Em muitos repositórios, o principal problema é a existência de dados replicados. Isso pode afetar a qualidade dos dados e a capacidade de fornecer serviços que atendam as demandas dos seus clientes. Porém, a remoção de registros replicados é uma tarefa que exige muito tempo e poder de processamento computacional. Atualmente, uma das técnicas que vem sendo utilizada de forma eficaz no processo de remoção de registros replicados é a Programação Genética (PG). Uma das principais características dessa técnica é que ela exige exemplos para a realização da etapa de treinamento. Outra característica importante é que a PG exige um alto custo computacional para ser aplicada, além do esforço para gerar os exemplos do treino. No problema de deduplicação um dos maiores custos durante a etapa de treino é causado pela necessidade de comparar cada um dos registros com todos os outros registros existentes no banco de dados. Assim, o tempo gasto para realizar essas comparações durante o treino é muito grande. A partir desse problema, esta dissertação propõe uma abordagem baseada na combinação de uma técnica de agrupamento e janela deslizante, visando minimizar a quantidade de comparações exigidas na etapa de treinamento da PG. Experimentos utilizando dados reais e sintéticos, mostram que é possível reduzir o custo de treinamento em até 70%, sem uma redução significativa na qualidade das soluções geradas.
author_additional Silva, Altigran Soares da
author_additionalStr Silva, Altigran Soares da
format Dissertação
author Silva, Davi Guimarães da
author2 http://lattes.cnpq.br/0463363430536002
author2Str http://lattes.cnpq.br/0463363430536002
title Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registros
title_short Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registros
title_full Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registros
title_fullStr Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registros
title_full_unstemmed Uma estratégia eficiente de treinamento para Programação Genética aplicada a deduplicação de registros
title_sort uma estratégia eficiente de treinamento para programação genética aplicada a deduplicação de registros
publisher Universidade Federal do Amazonas
publishDate 2017
url http://tede.ufam.edu.br/handle/tede/5552
_version_ 1831969479140048896
score 11.753735