Tese

Removing DUST using multiple alignment of sequences

Um grande número de URLs obtidas por coletores corresponde a páginas com conteúdo duplicado ou quase duplicado, conhecidas em Inglês pelo acrônimo DUST, que pode ser traduzido como Diferentes URLs com Texto Similar. DUST são prejudiciais para sistemas de busca porque ao serem coletadas, armaze...

ver descrição completa

Autor principal: Rodrigues, Kaio Wagner Lima
Outros Autores: http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4228711E9
Grau: Tese
Idioma: eng
Publicado em: Universidade Federal do Amazonas 2018
Assuntos:
Acesso em linha: https://tede.ufam.edu.br/handle/tede/6557