/img alt="Imagem da capa" class="recordcover" src="""/>
Dissertação
Minería de términos frasales aplicada en tareas de recuperación de información
El crecimiento espectacular y constante de la web con el consiguiente aumento en el número de documentos digitales disponibles y el uso cada día más frecuente de sistemas que lidian con información textual, han motivado constantes esfuerzos en el desarrollo de sistemas eficaces para el tratamient...
Autor principal: | Sánchez Vera, Zulema |
---|---|
Outros Autores: | http://lattes.cnpq.br/6850189466034541 |
Grau: | Dissertação |
Idioma: | spa |
Publicado em: |
Universidade Federal do Amazonas
2019
|
Assuntos: | |
Acesso em linha: |
https://tede.ufam.edu.br/handle/tede/7189 |
Resumo: |
---|
El crecimiento espectacular y constante de la web con el consiguiente aumento en
el número de documentos digitales disponibles y el uso cada día más frecuente de sistemas
que lidian con información textual, han motivado constantes esfuerzos en el desarrollo
de sistemas eficaces para el tratamiento de la información que realizan tareas como
busca, clasificación y clusterización en bases de datos textuales. Conocida la relevancia
de la representación del texto en los resultados de la recuperación de información, este
trabajo investiga el impacto de la adición de términos frasales como unidades, debido a
su interpretabilidad superior, con el objetivo de enriquecer la representación tradicional
del modelo BoW. La idea es que con el uso de términos frasales el ruido y ambigüedad
inherente de la representación del texto basada solo en palabras individuales sea reducida,
traduciéndose en mayor calidad en los resultados obtenidos.
Para la minería de términos frasales se utilizó el método Autophrase que integra los
enfoques de segmentación y evaluación de la calidad para la extracción de secuencias de
palabras, que constituyen unidades semánticas completas, no precisa de expertos humanos,
es independiente del idioma, dominio e incorpora información sintáctica en forma de
etiquetas POS siempre que esté disponible. En la búsqueda ad hoc se utilizó el modelo
vectorial en los conjuntos de datos: OHSUMED, Cystic Fibrosis y Glasgow Herald 1995, los
experimentos realizados muestran ganancias en el orden de 34,97 % utilizando la métrica
de MAP. Observándose que la adición de información semántica en forma de términos
frasales en las consultas, favorece la identificación de los documentos relevantes.
En las tareas de clasificación y clusterización se comparó la mejora de rendimiento
en términos de precisión, cuando los términos frasales mejor evaluados por las técnicas Chi2
y Mutual information son adicionados para ampliar la representación de los documentos,
basadas en palabras individuales en las colecciones 20 newsgroups, DBpedia ontology
classification y AG’news corpus respectivamente. Para esta comparación fueron empleados
los clasificadores Naive Bayes y Support vector machine en la clasificación y K-means en
la clusterización. Los resultados no mostraron ganancias significativas con la incorporación
de los términos frasales. La conclusión, en este caso, es que los documentos ya de por si
contienen suficiente información en forma de unigramas que aportan mayor peso que los
términos frasales que aumentan la dispersión de los datos. |