Dissertação

Minería de términos frasales aplicada en tareas de recuperación de información

El crecimiento espectacular y constante de la web con el consiguiente aumento en el número de documentos digitales disponibles y el uso cada día más frecuente de sistemas que lidian con información textual, han motivado constantes esfuerzos en el desarrollo de sistemas eficaces para el tratamient...

ver descrição completa

Autor principal: Sánchez Vera, Zulema
Outros Autores: http://lattes.cnpq.br/6850189466034541
Grau: Dissertação
Idioma: spa
Publicado em: Universidade Federal do Amazonas 2019
Assuntos:
Acesso em linha: https://tede.ufam.edu.br/handle/tede/7189
Resumo:
El crecimiento espectacular y constante de la web con el consiguiente aumento en el número de documentos digitales disponibles y el uso cada día más frecuente de sistemas que lidian con información textual, han motivado constantes esfuerzos en el desarrollo de sistemas eficaces para el tratamiento de la información que realizan tareas como busca, clasificación y clusterización en bases de datos textuales. Conocida la relevancia de la representación del texto en los resultados de la recuperación de información, este trabajo investiga el impacto de la adición de términos frasales como unidades, debido a su interpretabilidad superior, con el objetivo de enriquecer la representación tradicional del modelo BoW. La idea es que con el uso de términos frasales el ruido y ambigüedad inherente de la representación del texto basada solo en palabras individuales sea reducida, traduciéndose en mayor calidad en los resultados obtenidos. Para la minería de términos frasales se utilizó el método Autophrase que integra los enfoques de segmentación y evaluación de la calidad para la extracción de secuencias de palabras, que constituyen unidades semánticas completas, no precisa de expertos humanos, es independiente del idioma, dominio e incorpora información sintáctica en forma de etiquetas POS siempre que esté disponible. En la búsqueda ad hoc se utilizó el modelo vectorial en los conjuntos de datos: OHSUMED, Cystic Fibrosis y Glasgow Herald 1995, los experimentos realizados muestran ganancias en el orden de 34,97 % utilizando la métrica de MAP. Observándose que la adición de información semántica en forma de términos frasales en las consultas, favorece la identificación de los documentos relevantes. En las tareas de clasificación y clusterización se comparó la mejora de rendimiento en términos de precisión, cuando los términos frasales mejor evaluados por las técnicas Chi2 y Mutual information son adicionados para ampliar la representación de los documentos, basadas en palabras individuales en las colecciones 20 newsgroups, DBpedia ontology classification y AG’news corpus respectivamente. Para esta comparación fueron empleados los clasificadores Naive Bayes y Support vector machine en la clasificación y K-means en la clusterización. Los resultados no mostraron ganancias significativas con la incorporación de los términos frasales. La conclusión, en este caso, es que los documentos ya de por si contienen suficiente información en forma de unigramas que aportan mayor peso que los términos frasales que aumentan la dispersión de los datos.