Análise dos métodos tradicionais de ranking para busca na web

Kleber Veiga Castro

Relatório de Pesquisa

Análise dos métodos tradicionais de ranking para busca na web

O Brasil possui mais de 4 milhões de páginas registradas no domínio .br (MERLO, 2011), sendo que a tendência é crescer ainda mais, pois estima-se que a quantidade de sites deve duplicar (NIE et. al., 2006). Pode se constatar que devido o volume, a heterogeneidade da internet e com o aumento dos usuá...

ver descrição completa

Autor principal:	Kleber Veiga Castro
Grau:	Relatório de Pesquisa
Idioma:	pt_BR
Publicado em:	Universidade Federal do Amazonas 2016
Assuntos:	Recuperação da Informação, Análise de links, Web CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Acesso em linha:	http://riu.ufam.edu.br/handle/prefix/2527

Resumo:
O Brasil possui mais de 4 milhões de páginas registradas no domínio .br (MERLO, 2011), sendo que a tendência é crescer ainda mais, pois estima-se que a quantidade de sites deve duplicar (NIE et. al., 2006). Pode se constatar que devido o volume, a heterogeneidade da internet e com o aumento dos usuários e das páginas online a tendência é ter uma dificuldade maior para se recuperar as informações, tornando a tarefa de encontrar documentos relevantes entre os disponíveis, cada vez mais difíceis. Devido essa quantidade informação contida na web, existem algoritmos que são utilizados para a recuperação da informação, ou seja, quando o usuário requisita uma informação em algum sistema de busca, como Google e Yahoo, a informação é selecionada através de um algoritmo, essa busca deve ser dada em tempo aceitável e com boa qualidade da informação. Os algoritmos utilizados por esses sistemas de busca classificam as páginas Web, verificando o conteúdo das páginas e criando um ranking com o resultado da pesquisa, tendo os sites mais relevantes nos primeiros lugares, esses algoritmos são denominados de algoritmos de análise de links (SILVA et. al, 2011). Existem alguns métodos tradicionais de análise de links, sendo o algoritmo de PageRank e o HITS, dois dos métodos mais conhecidos. O algoritmo de PageRank foi descrito por Lawrence Page e Sergey Brin (BRIN & PAGE, 1981), visa classificar as páginas Web em um nível de importância, verificando a estrutura de links para se obter o nível de qualidade, ou seja, um valor de relevância para cada página Web. Esse algoritmo é usado pelo motor de busca Google para auxiliar na determinação de relevância. Apesar da eficiência dos algoritmos citados, estudos recentes (COELHO, 2002) (SILVA et. al, 2011) (BERT et. al) têm mostrado que a performance dos algoritmos está longe da ideal, apesar das evoluções tecnológicas e das novas versões de algoritmos de análise de links, a maioria dos sistemas de buscas ainda enfrenta vários problemas no momento de classificar as páginas de acordo com a necessidade do usuário, em outras palavras, retornar para o usuário a informação que ele necessita. Isso se dá devido alguns problemas que vai desde a simples forma do usuário fazer a consulta, até páginas Web construídas com o intuito de manipular as funções de ranking dos algoritmos. Nesse contexto, a necessidade de localizar e selecionar a informação são evidentes. Por isso, observou-se a necessidade do estudo das limitações e os problemas relacionados à recuperação de informação na Internet e o processo de análise de links utilizados em máquinas de buscas em ambiente Web.

Análise dos métodos tradicionais de ranking para busca na web

Registros relacionados