Extração automática de dados de páginas HTML utilizando alinhamento em dois níveis

Pedralho, André de Souza

Dissertação

Extração automática de dados de páginas HTML utilizando alinhamento em dois níveis

Existe uma grande quantidade de informação na World Wide Web em páginas compostas por objetos similares. Web sites de comércio eletrônico e catálogos online, em geral, são exemplos destes repositórios de dados. Apesar destes dados serem apresentados em porções de texto semi-estruturados, são projet...

ver descrição completa

Autor principal:	Pedralho, André de Souza
Grau:	Dissertação
Idioma:	por
Publicado em:	Universidade Federal do Amazonas 2015
Assuntos:	Extração de dados Web Alinhamento em dois níveis Distância de edição de árvores Geração automática de extratores Web Data extraction Two-level alignment Tree edit distance Automatic Wrapper generation CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Acesso em linha:	http://tede.ufam.edu.br/handle/tede/2897

id	oai:https:--tede.ufam.edu.br-handle-:tede-2897
recordtype	dspace
spelling	oai:https:--tede.ufam.edu.br-handle-:tede-28972016-05-25T05:02:35Z Extração automática de dados de páginas HTML utilizando alinhamento em dois níveis Pedralho, André de Souza Silva, Altigran Soares da http://lattes.cnpq.br/3405503472010994 Extração de dados Web Alinhamento em dois níveis Distância de edição de árvores Geração automática de extratores Web Data extraction Two-level alignment Tree edit distance Automatic Wrapper generation CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO Existe uma grande quantidade de informação na World Wide Web em páginas compostas por objetos similares. Web sites de comércio eletrônico e catálogos online, em geral, são exemplos destes repositórios de dados. Apesar destes dados serem apresentados em porções de texto semi-estruturados, são projetados para serem interpretados e utilizados por humanos e não processados por máquinas. A identificação destes objetos em páginas Web é feita por aplicações externas chamadas extratores ou wrappers. Neste trabalho propomos e avaliamos um método automático para o problema de extrair e estruturar registros e valores de seus atributos presentes em páginas Web ricas em dados. O método utiliza um Algoritmo de Alinhamento de Árvores para encontrar nestas páginas exemplos de registros que correspondem a objetos de interesse. Em seguida, o método gera expressões regulares para extrair objetos similares aos exemplos dados usando o Algoritmo de Alinhamento de Múltiplas Sequências. Em um passo final, o método decompõe os registros em sequências de texto aplicando a expressão regular criada e formatações e delimitadores comuns, com o intuito de identificar os valores dos atributos dos registros. Experimentos utilizando uma coleção composta por 128 páginasWeb de diferentes domínios demonstram a viabilidade do nosso método de extração. O método foi avaliado em relação à identificação de blocos de código HTML que contêm os registros e quanto à extração dos registros e dos valores de seus atributos. Obtivemos precisão de 83% e revocação de 80% na extração de valores de atributos. Estes valores significam um ganho na precisão de 43,37% e na revocação de 68,75%, em relação a propostas similares There is a huge amount of information in the World Wide Web in pages composed by similar objects. E-commerce Web sites and on-line catalogs, in general, are examples of such data repositories. Although this information usually occurs in semi-structured texts, it is designed to be interpreted and used by humans and not processed by machines. The identification of these objects inWeb pages is performed by external applications called extractors or wrappers. In this work we propose and evaluate an automatic approach to the problem of generating wrappers capable of extracting and structuring data records and the values of their attributes. It uses the Tree Alignment Algorithm to find in the Web page examples of objects of interest. Then, our method generates regular expressions for extracting objects similar to the examples given using the Multiple Sequence Alignment Algorithm. In a final step, the method decomposes the objects in sequences of text using the regular expression and common formats and delimiters, in order to identify the value of the attributes of the data records. Experiments using a collection composed by 128 Web pages from different domains have demonstrated the feasibility of our extraction method. It is evaluated regarding the identification of blocks of HTML source code that contain data records and regarding record extraction and the value of its attributes. It reached a precision of 83% and a recall of 80% when extracting the value of attributes. These values mean a gain in precision of 43.37% and in recall of 68.75% when compared to similar proposals. 2015-04-11T14:02:41Z 2013-10-02 2011-07-28 Dissertação PEDRALHO, André de Souza. Extração automática de dados de páginas HTML utilizando alinhamento em dois níveis. 2011. 78 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2011. http://tede.ufam.edu.br/handle/tede/2897 por Acesso Aberto application/pdf Universidade Federal do Amazonas Instituto de Computação BR UFAM Programa de Pós-graduação em Informática
institution	TEDE - Universidade Federal do Amazonas
collection	TEDE-UFAM
language	por
topic	Extração de dados Web Alinhamento em dois níveis Distância de edição de árvores Geração automática de extratores Web Data extraction Two-level alignment Tree edit distance Automatic Wrapper generation CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
spellingShingle	Extração de dados Web Alinhamento em dois níveis Distância de edição de árvores Geração automática de extratores Web Data extraction Two-level alignment Tree edit distance Automatic Wrapper generation CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO Pedralho, André de Souza Extração automática de dados de páginas HTML utilizando alinhamento em dois níveis
topic_facet	Extração de dados Web Alinhamento em dois níveis Distância de edição de árvores Geração automática de extratores Web Data extraction Two-level alignment Tree edit distance Automatic Wrapper generation CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
description	Existe uma grande quantidade de informação na World Wide Web em páginas compostas por objetos similares. Web sites de comércio eletrônico e catálogos online, em geral, são exemplos destes repositórios de dados. Apesar destes dados serem apresentados em porções de texto semi-estruturados, são projetados para serem interpretados e utilizados por humanos e não processados por máquinas. A identificação destes objetos em páginas Web é feita por aplicações externas chamadas extratores ou wrappers. Neste trabalho propomos e avaliamos um método automático para o problema de extrair e estruturar registros e valores de seus atributos presentes em páginas Web ricas em dados. O método utiliza um Algoritmo de Alinhamento de Árvores para encontrar nestas páginas exemplos de registros que correspondem a objetos de interesse. Em seguida, o método gera expressões regulares para extrair objetos similares aos exemplos dados usando o Algoritmo de Alinhamento de Múltiplas Sequências. Em um passo final, o método decompõe os registros em sequências de texto aplicando a expressão regular criada e formatações e delimitadores comuns, com o intuito de identificar os valores dos atributos dos registros. Experimentos utilizando uma coleção composta por 128 páginasWeb de diferentes domínios demonstram a viabilidade do nosso método de extração. O método foi avaliado em relação à identificação de blocos de código HTML que contêm os registros e quanto à extração dos registros e dos valores de seus atributos. Obtivemos precisão de 83% e revocação de 80% na extração de valores de atributos. Estes valores significam um ganho na precisão de 43,37% e na revocação de 68,75%, em relação a propostas similares
author_additional	Silva, Altigran Soares da
author_additionalStr	Silva, Altigran Soares da
format	Dissertação
author	Pedralho, André de Souza
title	Extração automática de dados de páginas HTML utilizando alinhamento em dois níveis
title_short	Extração automática de dados de páginas HTML utilizando alinhamento em dois níveis
title_full	Extração automática de dados de páginas HTML utilizando alinhamento em dois níveis
title_fullStr	Extração automática de dados de páginas HTML utilizando alinhamento em dois níveis
title_full_unstemmed	Extração automática de dados de páginas HTML utilizando alinhamento em dois níveis
title_sort	extração automática de dados de páginas html utilizando alinhamento em dois níveis
publisher	Universidade Federal do Amazonas
publishDate	2015
url	http://tede.ufam.edu.br/handle/tede/2897
_version_	1831969068300632064
score	11.755432

Extração automática de dados de páginas HTML utilizando alinhamento em dois níveis

Registros relacionados