Dissertação

Otimização do processo de aprendizagem da estrutura gráfica de Redes Bayesianas em BigData

Automation at data management and analysis has been a crucial factor for companies which need efficient solutions in an each more competitive corporate world. The explosion of the volume information, which has remained increasing in recent years, has demanded more and more commitment to seek strateg...

ver descrição completa

Autor principal: FRANÇA, Arilene Santos de
Grau: Dissertação
Idioma: por
Publicado em: Universidade Federal do Pará 2014
Assuntos:
Acesso em linha: http://repositorio.ufpa.br/jspui/handle/2011/5608
id ir-2011-5608
recordtype dspace
spelling ir-2011-56082018-02-16T17:07:18Z Otimização do processo de aprendizagem da estrutura gráfica de Redes Bayesianas em BigData FRANÇA, Arilene Santos de SANTANA, Ádamo Lima de http://lattes.cnpq.br/4073088744952858 Rede bayesiana BigData Mineração de dados (Computação) CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::LINGUAGENS DE PROGRAMACAO CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAO CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::PROBABILIDADE E ESTATISTICA APLICADAS Automation at data management and analysis has been a crucial factor for companies which need efficient solutions in an each more competitive corporate world. The explosion of the volume information, which has remained increasing in recent years, has demanded more and more commitment to seek strategies to manage and, especially, to extract valuable strategic informations from the use of data mining algorithms, which commonly need to perform exhausting queries at the database in order to obtain statistics that solve or optimize the parameters of the model of knowledge discovery selected; process which requires intensive computing to perform calculations and frequent access to the database. Given the effectiveness of uncertainty treatment, Bayesian networks have been widely used for this process, however, as the amount of data (records and/or attributes) increases, it becomes even more costly and time consuming to extract relevant information in a knowledge base. The goal of this work is to propose a new approach to optimization of the Bayesian Network structure learning in the context of BigData, by using the MapReduce process, in order to improve the processing time. To that end, it was generated a new methodology that includes the creation of an Intermediary Database, containing all the necessary probabilities to the calculations of the network structure. Through the analyzes presented at this work, it is shown that the combination of the proposed methodology with the MapReduce process is a good alternative to solve the scalability problem of the search frequency steps of K2 algorithm and, as a result, to reduce the response time generation of the network. CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior A automação na gestão e análise de dados tem sido um fator crucial para as empresas que necessitam de soluções eficientes em um mundo corporativo cada vez mais competitivo. A explosão do volume de informações, que vem se mantendo crescente nos últimos anos, tem exigido cada vez mais empenho em buscar estratégias para gerenciar e, principalmente, extrair informações estratégicas valiosas a partir do uso de algoritmos de Mineração de Dados, que comumente necessitam realizar buscas exaustivas na base de dados a fim de obter estatísticas que solucionem ou otimizem os parâmetros do modelo de extração do conhecimento utilizado; processo que requer computação intensiva para a execução de cálculos e acesso frequente à base de dados. Dada a eficiência no tratamento de incerteza, Redes Bayesianas têm sido amplamente utilizadas neste processo, entretanto, à medida que o volume de dados (registros e/ou atributos) aumenta, torna-se ainda mais custoso e demorado extrair informações relevantes em uma base de conhecimento. O foco deste trabalho é propor uma nova abordagem para otimização do aprendizado da estrutura da Rede Bayesiana no contexto de BigData, por meio do uso do processo de MapReduce, com vista na melhora do tempo de processamento. Para tanto, foi gerada uma nova metodologia que inclui a criação de uma Base de Dados Intermediária contendo todas as probabilidades necessárias para a realização dos cálculos da estrutura da rede. Por meio das análises apresentadas neste estudo, mostra-se que a combinação da metodologia proposta com o processo de MapReduce é uma boa alternativa para resolver o problema de escalabilidade nas etapas de busca em frequência do algoritmo K2 e, consequentemente, reduzir o tempo de resposta na geração da rede. 2014-09-05T12:32:05Z 2014-09-05T12:32:05Z 2014-02-20 Dissertação FRANÇA, Arilene Santos de. Otimização do processo de aprendizagem da estrutura gráfica de Redes Bayesianas em BigData. 2014. 41 f. Dissertação (Mestrado) - Universidade Federal do Pará, Instituto de Tecnologia, Belém, 2014. Programa de Pós-Graduação em Engenharia Elétrica. http://repositorio.ufpa.br/jspui/handle/2011/5608 por Acesso Aberto application/pdf Universidade Federal do Pará Brasil Instituto de Tecnologia UFPA Programa de Pós-Graduação em Engenharia Elétrica
institution Repositório Institucional - Universidade Federal do Pará
collection RI-UFPA
language por
topic Rede bayesiana
BigData
Mineração de dados (Computação)
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::LINGUAGENS DE PROGRAMACAO
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAO
CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::PROBABILIDADE E ESTATISTICA APLICADAS
spellingShingle Rede bayesiana
BigData
Mineração de dados (Computação)
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::LINGUAGENS DE PROGRAMACAO
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAO
CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::PROBABILIDADE E ESTATISTICA APLICADAS
FRANÇA, Arilene Santos de
Otimização do processo de aprendizagem da estrutura gráfica de Redes Bayesianas em BigData
topic_facet Rede bayesiana
BigData
Mineração de dados (Computação)
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::LINGUAGENS DE PROGRAMACAO
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAO
CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::PROBABILIDADE E ESTATISTICA APLICADAS
description Automation at data management and analysis has been a crucial factor for companies which need efficient solutions in an each more competitive corporate world. The explosion of the volume information, which has remained increasing in recent years, has demanded more and more commitment to seek strategies to manage and, especially, to extract valuable strategic informations from the use of data mining algorithms, which commonly need to perform exhausting queries at the database in order to obtain statistics that solve or optimize the parameters of the model of knowledge discovery selected; process which requires intensive computing to perform calculations and frequent access to the database. Given the effectiveness of uncertainty treatment, Bayesian networks have been widely used for this process, however, as the amount of data (records and/or attributes) increases, it becomes even more costly and time consuming to extract relevant information in a knowledge base. The goal of this work is to propose a new approach to optimization of the Bayesian Network structure learning in the context of BigData, by using the MapReduce process, in order to improve the processing time. To that end, it was generated a new methodology that includes the creation of an Intermediary Database, containing all the necessary probabilities to the calculations of the network structure. Through the analyzes presented at this work, it is shown that the combination of the proposed methodology with the MapReduce process is a good alternative to solve the scalability problem of the search frequency steps of K2 algorithm and, as a result, to reduce the response time generation of the network.
author_additional SANTANA, Ádamo Lima de
author_additionalStr SANTANA, Ádamo Lima de
format Dissertação
author FRANÇA, Arilene Santos de
title Otimização do processo de aprendizagem da estrutura gráfica de Redes Bayesianas em BigData
title_short Otimização do processo de aprendizagem da estrutura gráfica de Redes Bayesianas em BigData
title_full Otimização do processo de aprendizagem da estrutura gráfica de Redes Bayesianas em BigData
title_fullStr Otimização do processo de aprendizagem da estrutura gráfica de Redes Bayesianas em BigData
title_full_unstemmed Otimização do processo de aprendizagem da estrutura gráfica de Redes Bayesianas em BigData
title_sort otimização do processo de aprendizagem da estrutura gráfica de redes bayesianas em bigdata
publisher Universidade Federal do Pará
publishDate 2014
url http://repositorio.ufpa.br/jspui/handle/2011/5608
_version_ 1787148721635459072
score 11.653393