Dissertação

Aprendendo a segmentar páginas web

Diferente dos documentos tradicionais, as páginasWeb são compostas por diferentes segmentos ou blocos, cada qual desempenhando uma função específica dentro de cada página. Trabalhos recentes da literatura têm demonstrado que informações sobre esses segmentos podem ser úteis para melhorar os resul...

ver descrição completa

Autor principal: Daoud, Caio Moura
Outros Autores: http://lattes.cnpq.br/8569893814198940
Grau: Dissertação
Idioma: por
Publicado em: Universidade Federal do Amazonas 2015
Assuntos:
Acesso em linha: http://tede.ufam.edu.br/handle/tede/2924
Resumo:
Diferente dos documentos tradicionais, as páginasWeb são compostas por diferentes segmentos ou blocos, cada qual desempenhando uma função específica dentro de cada página. Trabalhos recentes da literatura têm demonstrado que informações sobre esses segmentos podem ser úteis para melhorar os resultados de inúmeras tarefas das áreas de recuperação de informação e mineração de dados. Por esse motivo, existem muitos trabalhos científicos propondo diferentes métodos de segmentação de páginas Web. De uma forma geral, os métodos de segmentação encontrados na literatura utilizam apenas evidências da própria página a ser segmentada. No entanto, partindo da observação de que as páginas de um mesmo site tendem a possuir layouts bastante similares, apresentamos neste trabalho uma abordagem baseada em aprendizagem de máquina que explora evidências globais dos Web sites. Nosso método, que adota Support Vector Machines para o processo de aprendizagem, e usa a estrutura SOM (Site Object Model) para agregar informações de todas as páginas de um mesmo Web site, apresentou bons resultados quando comparado com uma abordagem de segmentação manual, e quando comparado com uma recente abordagem da literatura.