Relatório de Pesquisa

Iniciação Científica em Extração e Uniformização de Resumos Estruturados de Páginas de Índice

O conteúdo de uma página Web é tipicamente organizado através de blocos de informações presentes em seu interior, obedecendo a estrutura interna e o layout da página. Um problema pouco explorado na literatura é como selecionar os blocos de informações mais importantes de uma página, e então dispô-lo...

ver descrição completa

Autor principal: Erickson Higor da Silva Alves
Grau: Relatório de Pesquisa
Idioma: pt_BR
Publicado em: Universidade Federal do Amazonas 2016
Assuntos:
Acesso em linha: http://riu.ufam.edu.br/handle/prefix/3163
id oai:localhost:prefix-3163
recordtype dspace
spelling oai:localhost:prefix-31632025-03-10T20:08:08Z Iniciação Científica em Extração e Uniformização de Resumos Estruturados de Páginas de Índice Erickson Higor da Silva Alves David Braga Fernandes de Oliveira Resumos estruturados Páginas de índice CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO O conteúdo de uma página Web é tipicamente organizado através de blocos de informações presentes em seu interior, obedecendo a estrutura interna e o layout da página. Um problema pouco explorado na literatura é como selecionar os blocos de informações mais importantes de uma página, e então dispô-los de forma a criar uma versão miniaturizada da página original. A essa versão miniaturizada damos o nome de resumo estruturado da página Web (vide Figura 1). Através deste trabalho de iniciação científica, pretendemos criar um método de geração automática de resumos estruturados de páginas Web. Uma forma bastante simples para se alcançar esse objetivo é através das páginas de índice, que são páginas Web contendo resumos estruturados de outras páginas do mesmo Web site. Um problema com a extração direta de resumos estruturados a partir das páginas de índice é que o formato dos resumos pode variar muito de site para site. O objetivo deste trabalho é criar um método para padronizar a disposição das informações dos resumos extraídos a partir de páginas de índice. Para tanto, pretendemos criar formatos padrões de resumos para determinados domínios de aplicação (produtos, filmes, notícias, etc), de forma que os resumos de um mesmo domínio sejam sempre reestruturados em um mesmo formato. Desta forma, uma vez que um resumo tenha sido extraído de uma página de índice, suas informações deverão ser rearranjadas conforme o domínio da aplicação do resumo. Uma possível estratégia a ser avaliada é rotular cada um dos seus blocos de informação usando a estratégia proposta em [Altigran et al., 2007], e então preencher o modelo de domínio correspondente com base nos rótulos encontrados. CNPQ 2016-09-23T15:25:35Z 2016-09-23T15:25:35Z 2013-07-31 Relatório de Pesquisa http://riu.ufam.edu.br/handle/prefix/3163 pt_BR Acesso Aberto PDF Universidade Federal do Amazonas Brasil Ciências da Computacao Instituto de Ciências Exatas PROGRAMA PIBIC 2012 UFAM
institution Repositório Institucional - Universidade Federal do Amazonas
collection RI-UFAM
language pt_BR
topic Resumos estruturados
Páginas de índice
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
spellingShingle Resumos estruturados
Páginas de índice
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Erickson Higor da Silva Alves
Iniciação Científica em Extração e Uniformização de Resumos Estruturados de Páginas de Índice
topic_facet Resumos estruturados
Páginas de índice
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
description O conteúdo de uma página Web é tipicamente organizado através de blocos de informações presentes em seu interior, obedecendo a estrutura interna e o layout da página. Um problema pouco explorado na literatura é como selecionar os blocos de informações mais importantes de uma página, e então dispô-los de forma a criar uma versão miniaturizada da página original. A essa versão miniaturizada damos o nome de resumo estruturado da página Web (vide Figura 1). Através deste trabalho de iniciação científica, pretendemos criar um método de geração automática de resumos estruturados de páginas Web. Uma forma bastante simples para se alcançar esse objetivo é através das páginas de índice, que são páginas Web contendo resumos estruturados de outras páginas do mesmo Web site. Um problema com a extração direta de resumos estruturados a partir das páginas de índice é que o formato dos resumos pode variar muito de site para site. O objetivo deste trabalho é criar um método para padronizar a disposição das informações dos resumos extraídos a partir de páginas de índice. Para tanto, pretendemos criar formatos padrões de resumos para determinados domínios de aplicação (produtos, filmes, notícias, etc), de forma que os resumos de um mesmo domínio sejam sempre reestruturados em um mesmo formato. Desta forma, uma vez que um resumo tenha sido extraído de uma página de índice, suas informações deverão ser rearranjadas conforme o domínio da aplicação do resumo. Uma possível estratégia a ser avaliada é rotular cada um dos seus blocos de informação usando a estratégia proposta em [Altigran et al., 2007], e então preencher o modelo de domínio correspondente com base nos rótulos encontrados.
author_additional David Braga Fernandes de Oliveira
author_additionalStr David Braga Fernandes de Oliveira
format Relatório de Pesquisa
author Erickson Higor da Silva Alves
title Iniciação Científica em Extração e Uniformização de Resumos Estruturados de Páginas de Índice
title_short Iniciação Científica em Extração e Uniformização de Resumos Estruturados de Páginas de Índice
title_full Iniciação Científica em Extração e Uniformização de Resumos Estruturados de Páginas de Índice
title_fullStr Iniciação Científica em Extração e Uniformização de Resumos Estruturados de Páginas de Índice
title_full_unstemmed Iniciação Científica em Extração e Uniformização de Resumos Estruturados de Páginas de Índice
title_sort iniciação científica em extração e uniformização de resumos estruturados de páginas de Índice
publisher Universidade Federal do Amazonas
publishDate 2016
url http://riu.ufam.edu.br/handle/prefix/3163
_version_ 1831969375817564160
score 11.755432