/img alt="Imagem da capa" class="recordcover" src="""/>
Relatório de Pesquisa
Um estudo sobre o impacto da função de similaridade sobre algoritmos de processamento de consultas em sistemas de busca textual
A utilização de sistemas de busca cresce de acordo com a quantidade de dados armazenados. Quando os dados são grandes coleções de documentos, exige-se uma efetiva busca por meio de palavras chaves fornecidas pelo usuário. O crescimento da coleção de documentos e a falta de acompanhamento do potencia...
Autor principal: | Lucas Citolin |
---|---|
Grau: | Relatório de Pesquisa |
Idioma: | pt_BR |
Publicado em: |
Universidade Federal do Amazonas
2017
|
Assuntos: | |
Acesso em linha: |
http://riu.ufam.edu.br/handle/prefix/5148 |
Resumo: |
---|
A utilização de sistemas de busca cresce de acordo com a quantidade de dados armazenados. Quando os dados são grandes coleções de documentos, exige-se uma efetiva busca por meio de palavras chaves fornecidas pelo usuário. O crescimento da coleção de documentos e a falta de acompanhamento do potencial de processamento das máquinas atuais levou ao investimento na área conhecida como recuperação de informação.
O constante investimento no processamento de consultas tem como objetivo o retorno de algoritmos efetivos (velozes, precisos) que acompanhem o grande crescimento de dados armazenados. Para que a busca seja efetuada na coleção de documentos, utiliza-se métodos para o cálculo de similaridade entre dois documentos, sendo este o fator decisivo na velocidade e precisão do (algoritmo)processo de busca.
Fórmulas para o cálculo de similaridade se torna presente na literatura desde modelos mais tradicionais como o Modelo de Espaço Vetorial e o modelo BM25. Existe uma grande lacuna na implementação destes modelos: a falta de comparação entre eles. Uma função de similaridade pode ser implementada em algoritmos diferentes, fazendo parte essencial do desempenho do mesmo.
Os trabalhos atuais não fazem uma efetiva comparação de seus algoritmos com modelos de similaridade diferentes, deixando uma lacuna na literatura pela combinação de modelos mais efetiva. A proposta deste projeto é de implementar os algoritmos de processamento de consultas, tais como o BMW, BMW-CS e o WAND com diferentes modelos para o cálculo de similaridade. |