Tese

Recuperação de imagem com múltiplos rótulos usando hashing profundo

Recuperação de imagem baseada em conteúdo (Content-based Image Retrieval - CBIR) é a tarefa que visa exibir, como resultado de uma busca, imagens com os mesmos conteúdos visuais de uma consulta. Esse problema tem atraído atenção crescente na área de visão computacional. Técnicas de hashing baseado e...

ver descrição completa

Autor principal: Silva, Josiane Rodrigues da
Outros Autores: http://lattes.cnpq.br/1788997377079235
Grau: Tese
Idioma: por
Publicado em: Universidade Federal do Amazonas 2022
Assuntos:
Acesso em linha: https://tede.ufam.edu.br/handle/tede/9047
id oai:https:--tede.ufam.edu.br-handle-:tede-9047
recordtype dspace
spelling oai:https:--tede.ufam.edu.br-handle-:tede-90472022-09-03T05:03:33Z Recuperação de imagem com múltiplos rótulos usando hashing profundo Silva, Josiane Rodrigues da Cristo, Marco Antônio Pinheiro http://lattes.cnpq.br/1788997377079235 http://lattes.cnpq.br/6261175351521953 Santos, Eulanda MIranda dos http://lattes.cnpq.br/3054990742969890 Carvalho, André Luiz da Costa http://lattes.cnpq.br/4863447798119856 Rosa, Thierson Couto http://lattes.cnpq.br/4414718560764818 CIENCIAS EXATAS E DA TERRA CIENCIA DA COMPUTACAO Recuperação de Imagem Baseada em Conteúdo Aprendizagem de Máquina Aprendizagem Profunda Hashing Profundo Arquiteturas Geradoras Profundas Recuperação de Imagens com Múltiplos Rótulos Autocodificadores Variacionais Recuperação de imagem baseada em conteúdo (Content-based Image Retrieval - CBIR) é a tarefa que visa exibir, como resultado de uma busca, imagens com os mesmos conteúdos visuais de uma consulta. Esse problema tem atraído atenção crescente na área de visão computacional. Técnicas de hashing baseado em aprendizado são hoje uma das abordagens mais estudadas de pesquisa aproximada de vizinhos mais próximos para recuperação de imagens em larga escala. Com o avanço das redes neurais profundas em representação de imagem, métodos de hashing para CBIR passaram a usar aprendizado profundo no processo de construção dos códigos binários. Tais estratégias são conhecidas genericamente como técnicas de Hashing Profundo (deep hashing). Embora uma variedade de métodos tenham sido propostos para CBIR usando hashing profundo, a maioria deles propõem abordagens que tratam as imagens como descrevendo um único tópico, ou seja, associadas a um único rótulo. Contudo, em busca visual é natural que as imagens tenham vários tópicos, cada um dos quais representados por diferentes rótulos que podem estar relacionados, por exemplo, com objetos de várias categorias ou diferentes conceitos associados com as imagens. Além disso, muitos desses modelos focam exclusivamente na qualidade dos rankings gerados, ignorando questões como a eficiência da busca e do uso do espaço disponível, aspectos importantes em Recuperação de Imagem. Desta forma, esta proposta investiga técnicas de hashing profundo com o intuito de tornar a tarefa de recuperação de imagem mais eficiente mantendo a qualidade do ranking de resposta compatível com o estado-da-arte. Além disso, focamos no cenário de múltiplos rótulos com o objetivo de gerar códigos hash que representem os vários níveis de similaridade entre as imagens. Mais especificamente, ao longo desta pesquisa, propusemos e estudamos arquiteturas profundas geradoras treinadas em duplas e triplas de imagens para a tarefa de recuperação de imagens multi-rótulo. As arquiteturas usadas foram autocodificadores variacionais baseados em distribuição discreta, capazes de gerar representações compactas das imagens, diretamente aplicáveis a técnicas de hashing, sem auxílio de processos intermediários não vinculados ao treino. Ao avaliarmos os métodos propostos em duas coleções de imagens multi-rótulo, uma sintética e outra real, observamos que os modelos são capazes de gerar códigos de hash binários efetivos em termos da qualidade dos rankings criados além de eficientes em termos do uso do espaço de hashing. Content-based Image Retrieval (CBIR) is the task of retrieving images as result of an image search, such that the retrieved images have the same visual contents as the query image. This problem has attracted increasing attention in the area of computer vision. Learning-based hashing techniques are among the most studied approaches to nearest-neighbor approximate search for large-scale image retrieval. With the advancement of deep neural networks in image representation, hashing based methods for CBIR have adopted deep learning in the process of outputing binary hash codes. Such strategies are known generically as Deep Hashing techniques. Although a variety of methods have been proposed for CBIR using deep hashing, most of them deal with single-labeled images. However, in visual search it is natural for images to have several topics, each of which is represented by a different label that may be related, for example, with objects of various categories or different concepts associated with the images. Furthermore, many of these models focus exclusively on the quality of the generated rankings, ignoring issues such as search efficiency and the use of the available space, which are important aspects to consider in Image Retrieval. In this way, we investigate deep hashing techniques which enable efficient image retrieval while achieving a high-quality response ranking. In addition, we focus on the multiple-label scenario so that the generated hash codes capture the various levels of similarity among the images. More specifically, throughout this research, we propose and study deep generative architectures trained on pairs and triples of images for the task of multi-label image retrieval. To this, we adopt variational autoencoders based on discrete distributions. These models can generate compact image representations, directly applicable to hashing techniques, without intermediate processes unrelated to training. When evaluating the proposed methods in two collections of multi-label images, we observed that they are capable of generating effective binary hash codes. Such codes can be used to produce high-quality rankings while enabling an efficient use of the hashing space. Capes 2022-09-02T17:23:14Z 2022-07-25 Tese SILVA, Josiane Rodrigues da. Recuperação de imagem com múltiplos rótulos usando hashing profundo. 2022. 122 f. Tese (Doutorado em Informática) Universidade Federal do Amazonas, Manaus (AM), 2022. https://tede.ufam.edu.br/handle/tede/9047 por Acesso Aberto application/pdf Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática
institution TEDE - Universidade Federal do Amazonas
collection TEDE-UFAM
language por
topic CIENCIAS EXATAS E DA TERRA CIENCIA DA COMPUTACAO
Recuperação de Imagem Baseada em Conteúdo
Aprendizagem de Máquina
Aprendizagem Profunda
Hashing Profundo
Arquiteturas Geradoras Profundas
Recuperação de Imagens com Múltiplos Rótulos
Autocodificadores Variacionais
spellingShingle CIENCIAS EXATAS E DA TERRA CIENCIA DA COMPUTACAO
Recuperação de Imagem Baseada em Conteúdo
Aprendizagem de Máquina
Aprendizagem Profunda
Hashing Profundo
Arquiteturas Geradoras Profundas
Recuperação de Imagens com Múltiplos Rótulos
Autocodificadores Variacionais
Silva, Josiane Rodrigues da
Recuperação de imagem com múltiplos rótulos usando hashing profundo
topic_facet CIENCIAS EXATAS E DA TERRA CIENCIA DA COMPUTACAO
Recuperação de Imagem Baseada em Conteúdo
Aprendizagem de Máquina
Aprendizagem Profunda
Hashing Profundo
Arquiteturas Geradoras Profundas
Recuperação de Imagens com Múltiplos Rótulos
Autocodificadores Variacionais
description Recuperação de imagem baseada em conteúdo (Content-based Image Retrieval - CBIR) é a tarefa que visa exibir, como resultado de uma busca, imagens com os mesmos conteúdos visuais de uma consulta. Esse problema tem atraído atenção crescente na área de visão computacional. Técnicas de hashing baseado em aprendizado são hoje uma das abordagens mais estudadas de pesquisa aproximada de vizinhos mais próximos para recuperação de imagens em larga escala. Com o avanço das redes neurais profundas em representação de imagem, métodos de hashing para CBIR passaram a usar aprendizado profundo no processo de construção dos códigos binários. Tais estratégias são conhecidas genericamente como técnicas de Hashing Profundo (deep hashing). Embora uma variedade de métodos tenham sido propostos para CBIR usando hashing profundo, a maioria deles propõem abordagens que tratam as imagens como descrevendo um único tópico, ou seja, associadas a um único rótulo. Contudo, em busca visual é natural que as imagens tenham vários tópicos, cada um dos quais representados por diferentes rótulos que podem estar relacionados, por exemplo, com objetos de várias categorias ou diferentes conceitos associados com as imagens. Além disso, muitos desses modelos focam exclusivamente na qualidade dos rankings gerados, ignorando questões como a eficiência da busca e do uso do espaço disponível, aspectos importantes em Recuperação de Imagem. Desta forma, esta proposta investiga técnicas de hashing profundo com o intuito de tornar a tarefa de recuperação de imagem mais eficiente mantendo a qualidade do ranking de resposta compatível com o estado-da-arte. Além disso, focamos no cenário de múltiplos rótulos com o objetivo de gerar códigos hash que representem os vários níveis de similaridade entre as imagens. Mais especificamente, ao longo desta pesquisa, propusemos e estudamos arquiteturas profundas geradoras treinadas em duplas e triplas de imagens para a tarefa de recuperação de imagens multi-rótulo. As arquiteturas usadas foram autocodificadores variacionais baseados em distribuição discreta, capazes de gerar representações compactas das imagens, diretamente aplicáveis a técnicas de hashing, sem auxílio de processos intermediários não vinculados ao treino. Ao avaliarmos os métodos propostos em duas coleções de imagens multi-rótulo, uma sintética e outra real, observamos que os modelos são capazes de gerar códigos de hash binários efetivos em termos da qualidade dos rankings criados além de eficientes em termos do uso do espaço de hashing.
author_additional Cristo, Marco Antônio Pinheiro
author_additionalStr Cristo, Marco Antônio Pinheiro
format Tese
author Silva, Josiane Rodrigues da
author2 http://lattes.cnpq.br/1788997377079235
author2Str http://lattes.cnpq.br/1788997377079235
title Recuperação de imagem com múltiplos rótulos usando hashing profundo
title_short Recuperação de imagem com múltiplos rótulos usando hashing profundo
title_full Recuperação de imagem com múltiplos rótulos usando hashing profundo
title_fullStr Recuperação de imagem com múltiplos rótulos usando hashing profundo
title_full_unstemmed Recuperação de imagem com múltiplos rótulos usando hashing profundo
title_sort recuperação de imagem com múltiplos rótulos usando hashing profundo
publisher Universidade Federal do Amazonas
publishDate 2022
url https://tede.ufam.edu.br/handle/tede/9047
_version_ 1781302726513131520
score 11.653393