Dissertação

Aprendendo a segmentar páginas web

Diferente dos documentos tradicionais, as páginasWeb são compostas por diferentes segmentos ou blocos, cada qual desempenhando uma função específica dentro de cada página. Trabalhos recentes da literatura têm demonstrado que informações sobre esses segmentos podem ser úteis para melhorar os resul...

ver descrição completa

Autor principal: Daoud, Caio Moura
Outros Autores: http://lattes.cnpq.br/8569893814198940
Grau: Dissertação
Idioma: por
Publicado em: Universidade Federal do Amazonas 2015
Assuntos:
Acesso em linha: http://tede.ufam.edu.br/handle/tede/2924
id oai:https:--tede.ufam.edu.br-handle-:tede-2924
recordtype dspace
spelling oai:https:--tede.ufam.edu.br-handle-:tede-29242016-05-11T14:29:40Z Aprendendo a segmentar páginas web Daoud, Caio Moura Oliveira, David Braga Fernandes de http://lattes.cnpq.br/8569893814198940 http://lattes.cnpq.br/9561812825173697 Segmentação de páginas Web Aprendizagem de máquina Árvore SOM Web pages segmentation Machine learning SOMtree CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO Diferente dos documentos tradicionais, as páginasWeb são compostas por diferentes segmentos ou blocos, cada qual desempenhando uma função específica dentro de cada página. Trabalhos recentes da literatura têm demonstrado que informações sobre esses segmentos podem ser úteis para melhorar os resultados de inúmeras tarefas das áreas de recuperação de informação e mineração de dados. Por esse motivo, existem muitos trabalhos científicos propondo diferentes métodos de segmentação de páginas Web. De uma forma geral, os métodos de segmentação encontrados na literatura utilizam apenas evidências da própria página a ser segmentada. No entanto, partindo da observação de que as páginas de um mesmo site tendem a possuir layouts bastante similares, apresentamos neste trabalho uma abordagem baseada em aprendizagem de máquina que explora evidências globais dos Web sites. Nosso método, que adota Support Vector Machines para o processo de aprendizagem, e usa a estrutura SOM (Site Object Model) para agregar informações de todas as páginas de um mesmo Web site, apresentou bons resultados quando comparado com uma abordagem de segmentação manual, e quando comparado com uma recente abordagem da literatura. Unlike traditional documents, Web pages are composed of different segments or blocks, each block has specific functions in each page. Recent work in the literature has shown that information on these segments may be useful to improve the results of numerous tasks in information retrieval and data mining areas. For this reason, there are many scientific works proposing different methods for Web pages segmentation. Generally speaking, the targeting methods found in the literature only use evidences of the page to be segmented. However, based on the observation that the pages of a site tend to have very similar layouts, we present a strategy based on machine learning that explores overall evidences of Web sites. Our method, which adopts Support Vector Machines for the learning process, and use the SOM structure (Site Object Model) to aggregate information from all pages of aWeb site, achieved good results when compared a manual segmentation approach, and with a recent approach in the literature. CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior 2015-04-11T14:02:58Z 2014-07-15 2013-03-28 Dissertação DAOUD, Caio Moura. Aprendendo a segmentar páginas web. 2013. 59 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2013. http://tede.ufam.edu.br/handle/tede/2924 por Acesso Aberto application/pdf Universidade Federal do Amazonas Instituto de Computação BR UFAM Programa de Pós-graduação em Informática
institution TEDE - Universidade Federal do Amazonas
collection TEDE-UFAM
language por
topic Segmentação de páginas Web
Aprendizagem de máquina
Árvore SOM
Web pages segmentation
Machine learning
SOMtree
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
spellingShingle Segmentação de páginas Web
Aprendizagem de máquina
Árvore SOM
Web pages segmentation
Machine learning
SOMtree
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Daoud, Caio Moura
Aprendendo a segmentar páginas web
topic_facet Segmentação de páginas Web
Aprendizagem de máquina
Árvore SOM
Web pages segmentation
Machine learning
SOMtree
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
description Diferente dos documentos tradicionais, as páginasWeb são compostas por diferentes segmentos ou blocos, cada qual desempenhando uma função específica dentro de cada página. Trabalhos recentes da literatura têm demonstrado que informações sobre esses segmentos podem ser úteis para melhorar os resultados de inúmeras tarefas das áreas de recuperação de informação e mineração de dados. Por esse motivo, existem muitos trabalhos científicos propondo diferentes métodos de segmentação de páginas Web. De uma forma geral, os métodos de segmentação encontrados na literatura utilizam apenas evidências da própria página a ser segmentada. No entanto, partindo da observação de que as páginas de um mesmo site tendem a possuir layouts bastante similares, apresentamos neste trabalho uma abordagem baseada em aprendizagem de máquina que explora evidências globais dos Web sites. Nosso método, que adota Support Vector Machines para o processo de aprendizagem, e usa a estrutura SOM (Site Object Model) para agregar informações de todas as páginas de um mesmo Web site, apresentou bons resultados quando comparado com uma abordagem de segmentação manual, e quando comparado com uma recente abordagem da literatura.
author_additional Oliveira, David Braga Fernandes de
author_additionalStr Oliveira, David Braga Fernandes de
format Dissertação
author Daoud, Caio Moura
author2 http://lattes.cnpq.br/8569893814198940
author2Str http://lattes.cnpq.br/8569893814198940
title Aprendendo a segmentar páginas web
title_short Aprendendo a segmentar páginas web
title_full Aprendendo a segmentar páginas web
title_fullStr Aprendendo a segmentar páginas web
title_full_unstemmed Aprendendo a segmentar páginas web
title_sort aprendendo a segmentar páginas web
publisher Universidade Federal do Amazonas
publishDate 2015
url http://tede.ufam.edu.br/handle/tede/2924
_version_ 1831969072535830528
score 11.753735