Extração não supervisionada de dados da web utilizando abordagem independente de formato

Porto, André Luiz Lopes; http://lattes.cnpq.br/1604861183405917

Dissertação

Extração não supervisionada de dados da web utilizando abordagem independente de formato

Nessa dissertação de mestrado propomos um novo método para extração em páginas Web ricas em dados que utiliza apenas o conteúdo textual destas páginas. Nosso método, chamado de FIEX (Format Independent Web Data Extraction), é baseado em técnicas de extração de informação por segmentação de texto,...

ver descrição completa

Autor principal:	Porto, André Luiz Lopes
Outros Autores:	http://lattes.cnpq.br/1604861183405917
Grau:	Dissertação
Idioma:	por
Publicado em:	Universidade Federal do Amazonas 2016
Assuntos:	Extração de dados Comércio Eletrônico Descrições de Produtos Alinhamento de dados Data Extraction E-commerce Product Description Data Alignment CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Acesso em linha:	http://tede.ufam.edu.br/handle/tede/5113

id	oai:https:--tede.ufam.edu.br-handle-:tede-5113
recordtype	dspace
spelling	oai:https:--tede.ufam.edu.br-handle-:tede-51132017-05-04T14:00:08Z Extração não supervisionada de dados da web utilizando abordagem independente de formato Porto, André Luiz Lopes Silva, Altigran Soares da http://lattes.cnpq.br/1604861183405917 http://lattes.cnpq.br/3405503472010994 Extração de dados Comércio Eletrônico Descrições de Produtos Alinhamento de dados Data Extraction E-commerce Product Description Data Alignment CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO Nessa dissertação de mestrado propomos um novo método para extração em páginas Web ricas em dados que utiliza apenas o conteúdo textual destas páginas. Nosso método, chamado de FIEX (Format Independent Web Data Extraction), é baseado em técnicas de extração de informação por segmentação de texto, e consegue extrair dados de páginas Web nas quais métodos do estado-da-arte baseados em técnicas de alinhamento de dados não conseguem devido à inconsistência entre a estrutura lógica das páginas Web e a estrutura conceitual dos dados nelas representadas. O FIEX, diferentemente dos métodos previamente propostos na literatura, é capaz de extrair dados apenas utilizando o conteúdo textual de uma página Web em cenários desa adores como casos severos de elementos textuais compostos, nos quais diversos valores de interesse para extração estão representados por apenas um elemento HTML. Para realizar a extração dos dados de páginas Web, o FIEX, é baseado em técnicas de eliminação de ruídos por redundância de informação e um método de extração de informação por segmentação de texto conhecido na literatura como ONDUX (On-Demand Unsupervised Learning for Information Extraction). Em nossos experimentos, utilizamos várias coleções de páginas Web de diferentes domínios de produtos e de lojas de comércio eletr ônico com objetivo de extrair dados de descrições de produtos. A escolha desse tipo de página Web, deve-se à grande quantidade de dados destas páginas estarem contidos em casos severos de elementos textuais compostos. De acordo com os resultados obtidos em nossos experimentos em diferentes domínios de produtos e lojas de comércio eletrônico, validamos a hipótese de que a extração baseada em apenas características textuais é possível e e caz. In this thesis we propose a new method for extraction data in rich Web pages that uses only the textual content of these pages. Our method, called FIEX (Format Independent Web Data Extraction), is based on information extraction techniques for text segmentation, and can extract data from Web pages where methods of state of the art based on data alignment techniques fail due to inconsistency between the logical structure of Web pages and the conceptual structure of the data represented in them. The FIEX, unlike the methods previously proposed in the literature, is able to extract data using only the textual content of a Web pages in challenging scenarios such as severe cases of textual elements compounds, in which various values of interest for extraction are represented by only one HTML element. To perform the extraction data of the web pages, FIEX is based on techniques of elimination noise by information redundancy and an information extraction method for text segmentation known in the literature as ONDUX (On-Demand Unsupervised Learning for Information Extraction). In our experiments, we used various Web pages collections of di erent areas of products and e-commerce stores with goal to extract data from product descriptions. The choose of this type of Web page, due to the large amount of data these pages are contained in severe cases of textual elements compounds. According to the results obtained in our experiments in various areas of products and e-commerce stores, we validate the hypothesis that the extraction based on only textual features is possible and e ective. 2016-07-28T13:50:19Z 2015-11-17 Dissertação PORTO, André Luiz Lopes. Extração não supervisionada de dados da web utilizando abordagem independente de formato. 2015. 77 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2015. http://tede.ufam.edu.br/handle/tede/5113 por Acesso Aberto application/pdf Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática
institution	TEDE - Universidade Federal do Amazonas
collection	TEDE-UFAM
language	por
topic	Extração de dados Comércio Eletrônico Descrições de Produtos Alinhamento de dados Data Extraction E-commerce Product Description Data Alignment CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
spellingShingle	Extração de dados Comércio Eletrônico Descrições de Produtos Alinhamento de dados Data Extraction E-commerce Product Description Data Alignment CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO Porto, André Luiz Lopes Extração não supervisionada de dados da web utilizando abordagem independente de formato
topic_facet	Extração de dados Comércio Eletrônico Descrições de Produtos Alinhamento de dados Data Extraction E-commerce Product Description Data Alignment CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
description	Nessa dissertação de mestrado propomos um novo método para extração em páginas Web ricas em dados que utiliza apenas o conteúdo textual destas páginas. Nosso método, chamado de FIEX (Format Independent Web Data Extraction), é baseado em técnicas de extração de informação por segmentação de texto, e consegue extrair dados de páginas Web nas quais métodos do estado-da-arte baseados em técnicas de alinhamento de dados não conseguem devido à inconsistência entre a estrutura lógica das páginas Web e a estrutura conceitual dos dados nelas representadas. O FIEX, diferentemente dos métodos previamente propostos na literatura, é capaz de extrair dados apenas utilizando o conteúdo textual de uma página Web em cenários desa adores como casos severos de elementos textuais compostos, nos quais diversos valores de interesse para extração estão representados por apenas um elemento HTML. Para realizar a extração dos dados de páginas Web, o FIEX, é baseado em técnicas de eliminação de ruídos por redundância de informação e um método de extração de informação por segmentação de texto conhecido na literatura como ONDUX (On-Demand Unsupervised Learning for Information Extraction). Em nossos experimentos, utilizamos várias coleções de páginas Web de diferentes domínios de produtos e de lojas de comércio eletr ônico com objetivo de extrair dados de descrições de produtos. A escolha desse tipo de página Web, deve-se à grande quantidade de dados destas páginas estarem contidos em casos severos de elementos textuais compostos. De acordo com os resultados obtidos em nossos experimentos em diferentes domínios de produtos e lojas de comércio eletrônico, validamos a hipótese de que a extração baseada em apenas características textuais é possível e e caz.
author_additional	Silva, Altigran Soares da
author_additionalStr	Silva, Altigran Soares da
format	Dissertação
author	Porto, André Luiz Lopes
author2	http://lattes.cnpq.br/1604861183405917
author2Str	http://lattes.cnpq.br/1604861183405917
title	Extração não supervisionada de dados da web utilizando abordagem independente de formato
title_short	Extração não supervisionada de dados da web utilizando abordagem independente de formato
title_full	Extração não supervisionada de dados da web utilizando abordagem independente de formato
title_fullStr	Extração não supervisionada de dados da web utilizando abordagem independente de formato
title_full_unstemmed	Extração não supervisionada de dados da web utilizando abordagem independente de formato
title_sort	extração não supervisionada de dados da web utilizando abordagem independente de formato
publisher	Universidade Federal do Amazonas
publishDate	2016
url	http://tede.ufam.edu.br/handle/tede/5113
_version_	1831969396819492864
score	11.755432

Extração não supervisionada de dados da web utilizando abordagem independente de formato

Registros relacionados