Dissertação

Avaliação do uso de quantificadores de teoria da informação para identificação de conversas online de pedofilia

Redes sociais privativas de mensagens instantaneas, como Whatsapp, representam uma ameaca para criancas e adolecentes que podem se tornar alvos de pedofilos. Portanto, a identificacao automatica de conversas de pedofilia representa uma importante ferramenta para prote¸c˜ao de jovens usuarios dest...

ver descrição completa

Autor principal: Postal, Juliana Gorayeb
Outros Autores: http://lattes.cnpq.br/7896351441674519
Grau: Dissertação
Idioma: por
Publicado em: Universidade Federal do Amazonas 2017
Assuntos:
Acesso em linha: http://tede.ufam.edu.br/handle/tede/5980
id oai:https:--tede.ufam.edu.br-handle-:tede-5980
recordtype dspace
spelling oai:https:--tede.ufam.edu.br-handle-:tede-59802019-07-01T13:31:21Z Avaliação do uso de quantificadores de teoria da informação para identificação de conversas online de pedofilia Postal, Juliana Gorayeb Nakamura, Eduardo Freire http://lattes.cnpq.br/7896351441674519 http://lattes.cnpq.br/1448696292042915 Nakamura, Eduardo Freire Figueiredo, Carlos Mauricio Seródio Pio, Jose Luiz de Souza Pedófilos Chats Teoria da Informação Redes sociais on-line CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO Redes sociais privativas de mensagens instantaneas, como Whatsapp, representam uma ameaca para criancas e adolecentes que podem se tornar alvos de pedofilos. Portanto, a identificacao automatica de conversas de pedofilia representa uma importante ferramenta para prote¸c˜ao de jovens usuarios destas redes. Contudo, estas redes possuem como particularidades: (1) as mensagens s˜ao tipicamente armazenadas apenas localmente; e (2) dispositivos moveis de capacidade limitada de processamento sao os principais veıculos de utilizacao. Neste contexto, as solucoes de estado-da-arte possuem um custo computacional proibitivo para execucao em dispositivos m´oveis. Em contrapartida, a natureza da comunicacao ponto-a-ponto destas redes torna, em muitos casos, inviavel o processamento em nuvem sem correr o risco de expor as vıtimas de pedofilia. Neste trabalho, apresentamos um metodo para extracao de caracterısticas de texto baseado em dois quantificadores de teoria da informacao, que utilizam histogramas individuais de palavras que representam as conversas e tres histogramas medios que representam o padrao de discurso dos possıveis tipos de autores presentes na base de dados: Predador (pedofilo), vıtima e regular (nem vıtima e nem predador). O primeiro quantificador ´e a entropia de Shannon que indica repeticao de assunto dos tipos de autor em conversas, o segundo e a divergencia de Jensen-Shannon que mede a similaridade entre o discurso em uma conversa em relacao ao padrao de discurso dos tipos de autor. O metodo proposto e capaz de resumir as conversas consideradas no estudo em tres caracterısticas de entropia e tres caracterısticas de divergencia independente da quantidade de conversas consideradas nos experimentos. Este vetor de caracteristicas compacto permite que um classificador seja capaz de identificar conversas de pedofilia com um desempenho próximo a 90%, considerando as medidas F1 e F0,5, e que chega a ser 72,8% mais rápido que o estado-da-arte. Social networks of instant messaging, such as Whatsapp, represent a real threat for children and teenagers, who can easily become targets of sexual predators and pedophiles. Hence, the automatic identification of pedophile chats represent a key tool to protect the young users of social networks. However, these networks have two sensitive particularities: (1) messages are often stored only locally; (2) mobile devices of limited processing power are the major interfaces. In this context, the state-of-the-art has a prohibitive cost to run on mobile devices. On the other hand, the nature of the peer-to-peer communication of such networks make it inviable to process the chat on the cloud, without risking to expose the victims. In this work, we present a new method, based on the Shannon entropy and the Jensen-Shannon divergence, to identify pedophile chats, that achieves nearly 90% of F1 and F0.5, and can be up to 72.8% faster than the state-of-the-art. In this work, we present a method for extracting text features based on two information theory quantifiers, using individual histograms of words representing the conversations and three mean histograms that represent the discourse pattern of possible types of authors present on the basis of Data: Predator (pedophile), victim and regular (neither victim nor predator). The first quantifier is Shannon’s entropy which indicates repetition of the subject’s subject in conversations, the second is the Jensen-Shannon divergence that measures the similarity between speech in a conversation relative to the discourse pattern of author types. The proposed method is able to summarize the conversations considered in the study in three characteristics of entropy and three characteristics of divergence independent of the amount of conversations considered in the experiments. This compact feature vector allows a classifier to be able to identify pedophile conversations with a performance close to 90%, considering the measures F1 and F0.5, and that it becomes 72.8% faster than the state of the art. 2017-10-20T19:25:05Z 2017-05-05 Dissertação POSTAL, Juliana Gorayeb. Avaliação do uso de quantificadores de teoria da informação para identificação de conversas online de pedofilia. 2017. 66 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2017. http://tede.ufam.edu.br/handle/tede/5980 por Acesso Aberto http://creativecommons.org/licenses/by-nc-nd/4.0/ application/pdf Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática
institution TEDE - Universidade Federal do Amazonas
collection TEDE-UFAM
language por
topic Pedófilos
Chats
Teoria da Informação
Redes sociais on-line
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
spellingShingle Pedófilos
Chats
Teoria da Informação
Redes sociais on-line
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Postal, Juliana Gorayeb
Avaliação do uso de quantificadores de teoria da informação para identificação de conversas online de pedofilia
topic_facet Pedófilos
Chats
Teoria da Informação
Redes sociais on-line
CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
description Redes sociais privativas de mensagens instantaneas, como Whatsapp, representam uma ameaca para criancas e adolecentes que podem se tornar alvos de pedofilos. Portanto, a identificacao automatica de conversas de pedofilia representa uma importante ferramenta para prote¸c˜ao de jovens usuarios destas redes. Contudo, estas redes possuem como particularidades: (1) as mensagens s˜ao tipicamente armazenadas apenas localmente; e (2) dispositivos moveis de capacidade limitada de processamento sao os principais veıculos de utilizacao. Neste contexto, as solucoes de estado-da-arte possuem um custo computacional proibitivo para execucao em dispositivos m´oveis. Em contrapartida, a natureza da comunicacao ponto-a-ponto destas redes torna, em muitos casos, inviavel o processamento em nuvem sem correr o risco de expor as vıtimas de pedofilia. Neste trabalho, apresentamos um metodo para extracao de caracterısticas de texto baseado em dois quantificadores de teoria da informacao, que utilizam histogramas individuais de palavras que representam as conversas e tres histogramas medios que representam o padrao de discurso dos possıveis tipos de autores presentes na base de dados: Predador (pedofilo), vıtima e regular (nem vıtima e nem predador). O primeiro quantificador ´e a entropia de Shannon que indica repeticao de assunto dos tipos de autor em conversas, o segundo e a divergencia de Jensen-Shannon que mede a similaridade entre o discurso em uma conversa em relacao ao padrao de discurso dos tipos de autor. O metodo proposto e capaz de resumir as conversas consideradas no estudo em tres caracterısticas de entropia e tres caracterısticas de divergencia independente da quantidade de conversas consideradas nos experimentos. Este vetor de caracteristicas compacto permite que um classificador seja capaz de identificar conversas de pedofilia com um desempenho próximo a 90%, considerando as medidas F1 e F0,5, e que chega a ser 72,8% mais rápido que o estado-da-arte.
author_additional Nakamura, Eduardo Freire
author_additionalStr Nakamura, Eduardo Freire
format Dissertação
author Postal, Juliana Gorayeb
author2 http://lattes.cnpq.br/7896351441674519
author2Str http://lattes.cnpq.br/7896351441674519
title Avaliação do uso de quantificadores de teoria da informação para identificação de conversas online de pedofilia
title_short Avaliação do uso de quantificadores de teoria da informação para identificação de conversas online de pedofilia
title_full Avaliação do uso de quantificadores de teoria da informação para identificação de conversas online de pedofilia
title_fullStr Avaliação do uso de quantificadores de teoria da informação para identificação de conversas online de pedofilia
title_full_unstemmed Avaliação do uso de quantificadores de teoria da informação para identificação de conversas online de pedofilia
title_sort avaliação do uso de quantificadores de teoria da informação para identificação de conversas online de pedofilia
publisher Universidade Federal do Amazonas
publishDate 2017
url http://tede.ufam.edu.br/handle/tede/5980
_version_ 1831969552312827904
score 11.753735