/img alt="Imagem da capa" class="recordcover" src="""/>
Dissertação
Avaliação do uso de quantificadores de teoria da informação para identificação de conversas online de pedofilia
Redes sociais privativas de mensagens instantaneas, como Whatsapp, representam uma ameaca para criancas e adolecentes que podem se tornar alvos de pedofilos. Portanto, a identificacao automatica de conversas de pedofilia representa uma importante ferramenta para prote¸c˜ao de jovens usuarios dest...
Autor principal: | Postal, Juliana Gorayeb |
---|---|
Outros Autores: | http://lattes.cnpq.br/7896351441674519 |
Grau: | Dissertação |
Idioma: | por |
Publicado em: |
Universidade Federal do Amazonas
2017
|
Assuntos: | |
Acesso em linha: |
http://tede.ufam.edu.br/handle/tede/5980 |
Resumo: |
---|
Redes sociais privativas de mensagens instantaneas, como Whatsapp, representam uma
ameaca para criancas e adolecentes que podem se tornar alvos de pedofilos. Portanto, a
identificacao automatica de conversas de pedofilia representa uma importante ferramenta
para prote¸c˜ao de jovens usuarios destas redes. Contudo, estas redes possuem como particularidades:
(1) as mensagens s˜ao tipicamente armazenadas apenas localmente; e (2)
dispositivos moveis de capacidade limitada de processamento sao os principais veıculos
de utilizacao. Neste contexto, as solucoes de estado-da-arte possuem um custo computacional
proibitivo para execucao em dispositivos m´oveis. Em contrapartida, a natureza
da comunicacao ponto-a-ponto destas redes torna, em muitos casos, inviavel o processamento
em nuvem sem correr o risco de expor as vıtimas de pedofilia. Neste trabalho,
apresentamos um metodo para extracao de caracterısticas de texto baseado em dois quantificadores
de teoria da informacao, que utilizam histogramas individuais de palavras que
representam as conversas e tres histogramas medios que representam o padrao de discurso
dos possıveis tipos de autores presentes na base de dados: Predador (pedofilo), vıtima e
regular (nem vıtima e nem predador). O primeiro quantificador ´e a entropia de Shannon
que indica repeticao de assunto dos tipos de autor em conversas, o segundo e a divergencia
de Jensen-Shannon que mede a similaridade entre o discurso em uma conversa em relacao
ao padrao de discurso dos tipos de autor. O metodo proposto e capaz de resumir as conversas
consideradas no estudo em tres caracterısticas de entropia e tres caracterısticas
de divergencia independente da quantidade de conversas consideradas nos experimentos.
Este vetor de caracteristicas compacto permite que um classificador seja capaz de identificar
conversas de pedofilia com um desempenho próximo a 90%, considerando as medidas
F1 e F0,5, e que chega a ser 72,8% mais rápido que o estado-da-arte. |