Tese

Métodos para seleção de palavras-chave em sistemas de publicidade contextual

Neste trabalho, nós estudamos o problema de seleção de palavras-chave para sistemas de publicidade contextualizada em dois diferentes cenários: páginas web e textos curtos. Nós lidamos com o problema de seleção de palavras-chave em páginas web utilizando aprendizado de máquina. Abordagens tradiciona...

ver descrição completa

Autor principal: Berlt, Klessius Renato
Outros Autores: http://lattes.cnpq.br/3621225869028936
Grau: Tese
Idioma: por
Publicado em: Universidade Federal do Amazonas 2015
Assuntos:
Acesso em linha: http://tede.ufam.edu.br/handle/tede/4150
id oai:https:--tede.ufam.edu.br-handle-:tede-4150
recordtype dspace
spelling oai:https:--tede.ufam.edu.br-handle-:tede-41502016-05-11T14:35:46Z Métodos para seleção de palavras-chave em sistemas de publicidade contextual Berlt, Klessius Renato Moura, Edleno Silva de http://lattes.cnpq.br/3621225869028936 http://lattes.cnpq.br/4737852130924504 Seleção de palavras-chave Aprendizado de máquina Publicidade contextualizada Keyword selection Contextual advertising CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO Neste trabalho, nós estudamos o problema de seleção de palavras-chave para sistemas de publicidade contextualizada em dois diferentes cenários: páginas web e textos curtos. Nós lidamos com o problema de seleção de palavras-chave em páginas web utilizando aprendizado de máquina. Abordagens tradicionais baseadas em aprendizado de máquina geralmente possuem como objetivo selecionar palavras-chave consideradas como relevantes por um conjunto de usuários. Entretanto, a nova estratégia proposta nesse trabalho objetiva selecionar palavras-chave que gerem o melhor resultado na qualidade final do sistema de seleção de publicidade. A esta estratégia, nós demos o nome de ad collection aware keyword selection (também chamada de ACAKS). Esta nova abordagem baseia-se no julgamento dos usuário em relação às propagandas com as quais cada palavra-chave _e relacionada pelo sistema de seleção de publicidade. Apesar desta estratégia demandar um alto esforço para rotular o conjunto de treino em relação _as abordagens tradicionais, nós acreditamos que o ganho obtido em revocação é suficiente para fazer com que o ACAKS seja uma melhor alternativa. Nos experimentos que nós realizamos com uma coleção de anúncios e considerando as características propostas em um trabalho anterior, nós descobrimos que a nova abordagem proposta levou a um ganho de 62% em revocação em relação ao baseline utilizado sem perder precisão. Além desta nova alternativa para selecionar palavras-chave, nós estudamos ainda a utilização do conjunto de características estraída da coleção de anúncios para selecionar palavras-chave. Nós também apresentamos três novos métodos para extrair palavras chave de páginas web que não necessitam de treino e usam a Wikipédia como fonte externa de informação. A informação usada da Wikipédia inclui os títulos dos artigos, co ocorrência de palavras chave e categorias associadas com cada artigo da Wikipédia. Resultados experimentais mostram que nossos métodos são soluções competitivas para selecionar boas palavras-chave que representem bem o conteúdo de páginas web, enquanto se mantém simples eficientes. Além da seleção de palavras-chave de paginas web nós também estudamos métodos para selecionar palavras-chave em textos curtos. Textos curtos tem se tornado uma maneira muito popular que os usuários encontraram para publicar conteúdo na web. Todos os dias, milhões de usuários postam seus pensamentos, necessidades e sentimentos na web através de sistemas de redes sociais, como Facebook e Twitter, ou espaços para comentários em sites de notícias. Grande parte da renda destes sistemas _e proveniente de publicidade contextualizada, desta forma selecionar palavras-chave neste novo cenário surge como um novo desafio. Nós propomos e estudamos uma nova família de métodos que utiliza a informação de conectividade presente na Wikipédia para descobrir os conceitos mais relacionados em cada texto curto. Utilizamos também os métodos propostos como um novo conjunto de características em um Framework de aprendizado de máquina para melhorar a qualidade dos resultados obtidos. Nós mostramos que esta abordagem apresenta um bom desempenho e supera o melhor baseline em cerca de 35%. Finalmente, nós aplicamos a abordagem ACAKS em textos curtos e ele gerou bons resultados, superando uma abordagem tradicional baseada em aprendizado de máquina em cerca de 80% tanto em termos de precisão quanto revocação. In this work we address the problem of selecting keywords for contextual advertising systems in two di erent scenarios: web pages and short texts. We deal with the problem of selecting keywords from web pages using machine learning. While traditional machine learning approaches usually have the goal of selecting keywords considered as good by humans. The new machine learning strategy proposed drives the selection by the expected impact of the keyword in the nal quality of the ad placement system, which we name here as ad collection aware keyword selection (also referred in this work as ACAKS). This new approach relies on the judgement of the users about the ads each keyword can retrieve. Although this strategy requires a higher e ort to build the training set than previous approaches, we believe the gain obtained in recall is worth enough to make the ad collection aware approach a better choice. In experiments we performed with an ad collection and considering features proposed in a previous work, we found that the new ad collection aware approach led to a gain of 62% in recall over the baseline without dropping the precision values. Besides the new alternative to select keywords, we also study the use of features extracted from the ad collection in the task of selecting keywords. We also present three new methods to extract keywords from web pages which require no learning process and use Wikipedia as an external source of information to support the keyword selection. The information used from Wikipedia includes the titles of articles, co-occurrence of keywords and categories associated with each Wikipedia de nition. Experimental results show that our methods are quite competitive solutions for the task of selecting good keywords to represent target web pages, albeit being simple, e ective and time e cient. Besides selecting keywords from web pages we also study methods for selecting keywords from short texts. Short texts have became a very popular way users adopt for publishing content on the web. Every day, millions of users post their thoughts, needs and feelings on the Web through systems, such as social networks like Facebook and Twitter, or spaces for comments on news web sites. Much of these systems' revenue is from contextual advertising systems, thus selecting keywords in this new scenario raise as a new challenge. We propose and study a novel family of methods which uses the connectivity information present on Wikipedia to discover the most related concepts on each short textual unit. We also used the proposed methods as a new set of features on a Machine Learning Framework to boost the quality of the results obtained. We show that this approach presents a good performance and outperforms the best baselines by more than 35%. Finally, we apply the ACAKS approach on short texts and it yielded good results, outperforming a traditional machine learning approach by more than 80% in precision and 80% in recall. CNPQ - Conselho Nacional de Desenvolvimento Científico e Tecnológico 2015-06-24T14:44:22Z 2012-12-19 Tese BERLT, Klessius Renato. Métodos para seleção de palavras-chave em sistemas de publicidade contextual. 2012. 99 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus, 2012. http://tede.ufam.edu.br/handle/tede/4150 por Acesso Aberto application/pdf Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática
institution TEDE - Universidade Federal do Amazonas
collection TEDE-UFAM
language por
topic Seleção de palavras-chave
Aprendizado de máquina
Publicidade contextualizada
Keyword selection
Contextual advertising
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
spellingShingle Seleção de palavras-chave
Aprendizado de máquina
Publicidade contextualizada
Keyword selection
Contextual advertising
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Berlt, Klessius Renato
Métodos para seleção de palavras-chave em sistemas de publicidade contextual
topic_facet Seleção de palavras-chave
Aprendizado de máquina
Publicidade contextualizada
Keyword selection
Contextual advertising
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
description Neste trabalho, nós estudamos o problema de seleção de palavras-chave para sistemas de publicidade contextualizada em dois diferentes cenários: páginas web e textos curtos. Nós lidamos com o problema de seleção de palavras-chave em páginas web utilizando aprendizado de máquina. Abordagens tradicionais baseadas em aprendizado de máquina geralmente possuem como objetivo selecionar palavras-chave consideradas como relevantes por um conjunto de usuários. Entretanto, a nova estratégia proposta nesse trabalho objetiva selecionar palavras-chave que gerem o melhor resultado na qualidade final do sistema de seleção de publicidade. A esta estratégia, nós demos o nome de ad collection aware keyword selection (também chamada de ACAKS). Esta nova abordagem baseia-se no julgamento dos usuário em relação às propagandas com as quais cada palavra-chave _e relacionada pelo sistema de seleção de publicidade. Apesar desta estratégia demandar um alto esforço para rotular o conjunto de treino em relação _as abordagens tradicionais, nós acreditamos que o ganho obtido em revocação é suficiente para fazer com que o ACAKS seja uma melhor alternativa. Nos experimentos que nós realizamos com uma coleção de anúncios e considerando as características propostas em um trabalho anterior, nós descobrimos que a nova abordagem proposta levou a um ganho de 62% em revocação em relação ao baseline utilizado sem perder precisão. Além desta nova alternativa para selecionar palavras-chave, nós estudamos ainda a utilização do conjunto de características estraída da coleção de anúncios para selecionar palavras-chave. Nós também apresentamos três novos métodos para extrair palavras chave de páginas web que não necessitam de treino e usam a Wikipédia como fonte externa de informação. A informação usada da Wikipédia inclui os títulos dos artigos, co ocorrência de palavras chave e categorias associadas com cada artigo da Wikipédia. Resultados experimentais mostram que nossos métodos são soluções competitivas para selecionar boas palavras-chave que representem bem o conteúdo de páginas web, enquanto se mantém simples eficientes. Além da seleção de palavras-chave de paginas web nós também estudamos métodos para selecionar palavras-chave em textos curtos. Textos curtos tem se tornado uma maneira muito popular que os usuários encontraram para publicar conteúdo na web. Todos os dias, milhões de usuários postam seus pensamentos, necessidades e sentimentos na web através de sistemas de redes sociais, como Facebook e Twitter, ou espaços para comentários em sites de notícias. Grande parte da renda destes sistemas _e proveniente de publicidade contextualizada, desta forma selecionar palavras-chave neste novo cenário surge como um novo desafio. Nós propomos e estudamos uma nova família de métodos que utiliza a informação de conectividade presente na Wikipédia para descobrir os conceitos mais relacionados em cada texto curto. Utilizamos também os métodos propostos como um novo conjunto de características em um Framework de aprendizado de máquina para melhorar a qualidade dos resultados obtidos. Nós mostramos que esta abordagem apresenta um bom desempenho e supera o melhor baseline em cerca de 35%. Finalmente, nós aplicamos a abordagem ACAKS em textos curtos e ele gerou bons resultados, superando uma abordagem tradicional baseada em aprendizado de máquina em cerca de 80% tanto em termos de precisão quanto revocação.
author_additional Moura, Edleno Silva de
author_additionalStr Moura, Edleno Silva de
format Tese
author Berlt, Klessius Renato
author2 http://lattes.cnpq.br/3621225869028936
author2Str http://lattes.cnpq.br/3621225869028936
title Métodos para seleção de palavras-chave em sistemas de publicidade contextual
title_short Métodos para seleção de palavras-chave em sistemas de publicidade contextual
title_full Métodos para seleção de palavras-chave em sistemas de publicidade contextual
title_fullStr Métodos para seleção de palavras-chave em sistemas de publicidade contextual
title_full_unstemmed Métodos para seleção de palavras-chave em sistemas de publicidade contextual
title_sort métodos para seleção de palavras-chave em sistemas de publicidade contextual
publisher Universidade Federal do Amazonas
publishDate 2015
url http://tede.ufam.edu.br/handle/tede/4150
_version_ 1831969242261487616
score 11.753896