/img alt="Imagem da capa" class="recordcover" src="""/>
Tese
Removing DUST using multiple alignment of sequences
Um grande número de URLs obtidas por coletores corresponde a páginas com conteúdo duplicado ou quase duplicado, conhecidas em Inglês pelo acrônimo DUST, que pode ser traduzido como Diferentes URLs com Texto Similar. DUST são prejudiciais para sistemas de busca porque ao serem coletadas, armaze...
Autor principal: | Rodrigues, Kaio Wagner Lima |
---|---|
Outros Autores: | http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4228711E9 |
Grau: | Tese |
Idioma: | eng |
Publicado em: |
Universidade Federal do Amazonas
2018
|
Assuntos: | |
Acesso em linha: |
https://tede.ufam.edu.br/handle/tede/6557 |
Resumo: |
---|
Um grande número de URLs obtidas por coletores corresponde a páginas com
conteúdo duplicado ou quase duplicado, conhecidas em Inglês pelo acrônimo
DUST, que pode ser traduzido como Diferentes URLs com Texto Similar. DUST
são prejudiciais para sistemas de busca porque ao serem coletadas, armazenadas
e utilizadas, contribuem para o desperdício de recursos, a criação de rankings
de baixa qualidade e, consequentemente, uma experiência pior para o usuário.
Para lidar com este problema, muita pesquisa tem sido realizada com intuito
de detectar e remover DUST antes mesmo de coletar as URLs. Para isso, esses
métodos se baseiam no aprendizado de regras de normalização que transformam
todas as URLs com conteúdo duplicado para uma mesma forma canônica. Tais regras podem ser
então usadas por coletores com o intuito de reconhecer e ignorar DUST.
Para isto, é necessário derivar, de forma eficiente, um conjunto mínimo de
regras que alcance uma grande taxa de redução com baixa incidência de
falsos-positivos. Como a maioria dos métodos propostos na literatura é baseada
na análise de pares, a qualidade das regras é afetada pelo critério usado para
selecionar os exemplos de pares e a disponibilidade de exemplos representativos
no treino. Para evitar processar um número muito alto de exemplos, em geral,
são aplicadas técnicas de amostragem ou a busca por DUST é limitada apenas a
sites, o que impede a geração de regras que envolvam diferentes nomes de DNS.
Como consequência, métodos atuais são muito suscetíveis a ruído e, em muitos
casos, derivam regras muito específicas. Nesta tese, é proposta uma nova
técnica para derivar regras, baseada em uma estratégia de alinhamento
múltiplo de sequências. Em particular, mostramos que um alinhamento prévio das
URLs com conteúdo duplicado contribui para uma melhor generalização, o que
resulta na geração de regras mais efetivas. Através de experimentos em duas
diferentes coleções extraídas da Web, observa-se que a técnica proposta,
além de ser mais rápida, filtra um número maior de URLs duplicadas.
Uma versão distribuída do método, baseada na arquitetura MapReduce,
proporciona a possibilidade de escalabilidade para coleções com dimensões
compatíveis com a Web. |