/img alt="Imagem da capa" class="recordcover" src="""/>
Dissertação
Extração não supervisionada de dados da web utilizando abordagem independente de formato
Nessa dissertação de mestrado propomos um novo método para extração em páginas Web ricas em dados que utiliza apenas o conteúdo textual destas páginas. Nosso método, chamado de FIEX (Format Independent Web Data Extraction), é baseado em técnicas de extração de informação por segmentação de texto,...
Autor principal: | Porto, André Luiz Lopes |
---|---|
Outros Autores: | http://lattes.cnpq.br/1604861183405917 |
Grau: | Dissertação |
Idioma: | por |
Publicado em: |
Universidade Federal do Amazonas
2016
|
Assuntos: | |
Acesso em linha: |
http://tede.ufam.edu.br/handle/tede/5113 |
Resumo: |
---|
Nessa dissertação de mestrado propomos um novo método para extração em páginas
Web ricas em dados que utiliza apenas o conteúdo textual destas páginas. Nosso
método, chamado de FIEX (Format Independent Web Data Extraction), é baseado
em técnicas de extração de informação por segmentação de texto, e consegue extrair
dados de páginas Web nas quais métodos do estado-da-arte baseados em técnicas de
alinhamento de dados não conseguem devido à inconsistência entre a estrutura lógica
das páginas Web e a estrutura conceitual dos dados nelas representadas. O FIEX,
diferentemente dos métodos previamente propostos na literatura, é capaz de extrair
dados apenas utilizando o conteúdo textual de uma página Web em cenários desa adores
como casos severos de elementos textuais compostos, nos quais diversos valores de
interesse para extração estão representados por apenas um elemento HTML. Para realizar
a extração dos dados de páginas Web, o FIEX, é baseado em técnicas de eliminação
de ruídos por redundância de informação e um método de extração de informação por
segmentação de texto conhecido na literatura como ONDUX (On-Demand Unsupervised
Learning for Information Extraction). Em nossos experimentos, utilizamos várias
coleções de páginas Web de diferentes domínios de produtos e de lojas de comércio eletr
ônico com objetivo de extrair dados de descrições de produtos. A escolha desse tipo
de página Web, deve-se à grande quantidade de dados destas páginas estarem contidos
em casos severos de elementos textuais compostos. De acordo com os resultados obtidos
em nossos experimentos em diferentes domínios de produtos e lojas de comércio
eletrônico, validamos a hipótese de que a extração baseada em apenas características
textuais é possível e e caz. |