Dissertação

Identificação e desambiguação de menções a produtos em conteúdo gerado por usuários : um estudo de caso no domínio de jogos

Um problema bastante relevante para a análise de comentários postados por usuários em redes sociais é a identificação das entidades que são o alvo destes comentários. No entanto, identificar corretamente as entidades mencionadas em textos produzidos pelos usuários é uma tarefa desafiadora, visto...

ver descrição completa

Autor principal: Barros, Diego de Azevedo
Outros Autores: http://lattes.cnpq.br/1518552520629014
Grau: Dissertação
Idioma: por
Publicado em: Universidade Federal do Amazonas 2016
Assuntos:
Acesso em linha: http://tede.ufam.edu.br/handle/tede/5291
Resumo:
Um problema bastante relevante para a análise de comentários postados por usuários em redes sociais é a identificação das entidades que são o alvo destes comentários. No entanto, identificar corretamente as entidades mencionadas em textos produzidos pelos usuários é uma tarefa desafiadora, visto que uma mesma entidade pode ser mencionada de várias maneiras diferentes, dependendo do usuário e de como a menção está sendo feita. Além disso, esses comentários são caracterizados por texto com baixa qualidade de escrita, erros ortográficos, gramaticais, etc. Neste trabalho, apresentamos um estudo de caso sobre o problema de identificação e desambiguação de menções a entidades em conteúdo gerado por usuários, voltado para o domínio de jogos. A escolha deste domínio deve-se à importância econômica e cultural deste tipo de conteúdo e também ao fato de a maioria dos trabalhos na literatura relacionada recente abordar este problema no contexto de produtos eletrônicos (televisores, smartphones, etc.). Como estratégia para a realização deste estudo de caso, desenvolvemos uma ferramenta chamada GameSpotter, que utiliza métodos de reconhecimento de entidades nomeadas (named entity recognition - NER) e de desambiguação de entidades nomeadas (named entity disambiguation - NED) para identificar e desambiguar as menções a jogos nos comentários postados em um fórum real daWeb. Para tanto, desenvolvemos dois métodos alternativos NER e um método de NED voltados ao domínio de jogos. Nossos resultados experimentais mostraram que nossos métodos de NER e NED são efetivos, tendo alcançado em média uma precisão de 0,93 e 0,83 em relação ao reconhecimento e desambiguação de menções a jogos, respectivamente.