Relatório de Pesquisa

Um estudo sobre o impacto da função de similaridade sobre algoritmos de processamento de consultas em sistemas de busca textual

A utilização de sistemas de busca cresce de acordo com a quantidade de dados armazenados. Quando os dados são grandes coleções de documentos, exige-se uma efetiva busca por meio de palavras chaves fornecidas pelo usuário. O crescimento da coleção de documentos e a falta de acompanhamento do potencia...

ver descrição completa

Autor principal: Lucas Citolin
Grau: Relatório de Pesquisa
Idioma: pt_BR
Publicado em: Universidade Federal do Amazonas 2017
Assuntos:
Acesso em linha: http://riu.ufam.edu.br/handle/prefix/5148
Resumo:
A utilização de sistemas de busca cresce de acordo com a quantidade de dados armazenados. Quando os dados são grandes coleções de documentos, exige-se uma efetiva busca por meio de palavras chaves fornecidas pelo usuário. O crescimento da coleção de documentos e a falta de acompanhamento do potencial de processamento das máquinas atuais levou ao investimento na área conhecida como recuperação de informação. O constante investimento no processamento de consultas tem como objetivo o retorno de algoritmos efetivos (velozes, precisos) que acompanhem o grande crescimento de dados armazenados. Para que a busca seja efetuada na coleção de documentos, utiliza-se métodos para o cálculo de similaridade entre dois documentos, sendo este o fator decisivo na velocidade e precisão do (algoritmo)processo de busca. Fórmulas para o cálculo de similaridade se torna presente na literatura desde modelos mais tradicionais como o Modelo de Espaço Vetorial e o modelo BM25. Existe uma grande lacuna na implementação destes modelos: a falta de comparação entre eles. Uma função de similaridade pode ser implementada em algoritmos diferentes, fazendo parte essencial do desempenho do mesmo. Os trabalhos atuais não fazem uma efetiva comparação de seus algoritmos com modelos de similaridade diferentes, deixando uma lacuna na literatura pela combinação de modelos mais efetiva. A proposta deste projeto é de implementar os algoritmos de processamento de consultas, tais como o BMW, BMW-CS e o WAND com diferentes modelos para o cálculo de similaridade.