/img alt="Imagem da capa" class="recordcover" src="""/>
Tese
Extração de informação não-supervisionada por segmentação de texto
Neste trabalho, propomos, implementar e avaliar uma nova abordagem não supervisionada para o problema de Extração de Informações Segmentação Texto (IETS). Nossa abordagem baseia-se em informações disponíveis sobre dados pré-existentes para aprender a associar segmentos na seqüência de entrada com...
Autor principal: | Vilarinho, Eli Cortez Custódio |
---|---|
Outros Autores: | http://lattes.cnpq.br/7241678053263242 |
Grau: | Tese |
Idioma: | por |
Publicado em: |
Universidade Federal do Amazonas
2015
|
Assuntos: | |
Acesso em linha: |
http://tede.ufam.edu.br/handle/tede/4518 |
Resumo: |
---|
Neste trabalho, propomos, implementar e avaliar uma nova abordagem não supervisionada para
o problema de Extração de Informações Segmentação Texto (IETS). Nossa abordagem
baseia-se em informações disponíveis sobre dados pré-existentes para aprender a associar segmentos
na seqüência de entrada com atributos de um determinado domínio contando com uma muito eficaz
conjunto de recursos baseados em conteúdo. A eficácia dos recursos com base em conteúdo também é
explorada para aprender diretamente com recursos baseados em estrutura de dados de teste, sem prévia
formação humana-driven, uma característica única para a nossa abordagem. Com base em nossa abordagem,
que produziram um número de resultados de abordar o problema IETS num sem supervisão
moda. Em particular, temos desenvolvido, implementado e avaliado IETS distintas
métodos, nomeadamente ONDUX, judie e iForm. ONDUX (On Demand Unsupervised
Extração de Informação) é uma abordagem probabilística sem supervisão para que IETS
depende de características baseadas em conteúdo para iniciar o aprendizado de características baseadas em estrutura.
Recursos baseados em estrutura são exploradas para disambiguate a extração de certos
atributos através de uma etapa de reforço, que se baseia na sequenciação e posicionamento
de valores de atributos diretamente aprendidas on-demand a partir dos textos de entrada. Judie (Joint
Estrutura sem supervisão Descoberta e Extração de Informações) visa automaticamente
extrair vários registros semi-estruturados de dados na forma de texto contínuo
e não tendo delimitadores explícitas entre eles. Em comparação com outros IETS
métodos, incluindo ONDUX, judie enfrenta uma tarefa consideravelmente mais forte, isto é, extrair
informações, ao mesmo tempo descobrindo a estrutura subjacente de
os registros implícitas que o contenham. Apesar disso, ele consegue resultados comparáveis aos
a métodos the-art estado-da. iForm aplica-se a nossa abordagem para a tarefa de forma Web
o preenchimento. Destina-se a extração de segmentos de um texto rico em dados fornecidos como entrada e associando
esses segmentos com campos de um formulário Web de destino. O processo de extracção
depende de recursos com base em conteúdo aprendidas com os dados que foram previamente submetidos à
o formulário Web. Todos esses métodos foram avaliados considerando diferente experimental
conjuntos de dados, que usamos para realizar um grande conjunto de experiências, a fim de validar
nossa abordagem e métodos. Estas experiências indicam que a nossa abordagem proposta
produz resultados de alta qualidade quando comparado com abordagens state-of-the-art e que
ele é capaz de suportar adequadamente os métodos IETS em uma série de aplicações reais. |