Tese

Recuperação de imagem com múltiplos rótulos usando hashing profundo

Recuperação de imagem baseada em conteúdo (Content-based Image Retrieval - CBIR) é a tarefa que visa exibir, como resultado de uma busca, imagens com os mesmos conteúdos visuais de uma consulta. Esse problema tem atraído atenção crescente na área de visão computacional. Técnicas de hashing baseado e...

ver descrição completa

Autor principal: Silva, Josiane Rodrigues da
Outros Autores: http://lattes.cnpq.br/1788997377079235
Grau: Tese
Idioma: por
Publicado em: Universidade Federal do Amazonas 2022
Assuntos:
Acesso em linha: https://tede.ufam.edu.br/handle/tede/9047
Resumo:
Recuperação de imagem baseada em conteúdo (Content-based Image Retrieval - CBIR) é a tarefa que visa exibir, como resultado de uma busca, imagens com os mesmos conteúdos visuais de uma consulta. Esse problema tem atraído atenção crescente na área de visão computacional. Técnicas de hashing baseado em aprendizado são hoje uma das abordagens mais estudadas de pesquisa aproximada de vizinhos mais próximos para recuperação de imagens em larga escala. Com o avanço das redes neurais profundas em representação de imagem, métodos de hashing para CBIR passaram a usar aprendizado profundo no processo de construção dos códigos binários. Tais estratégias são conhecidas genericamente como técnicas de Hashing Profundo (deep hashing). Embora uma variedade de métodos tenham sido propostos para CBIR usando hashing profundo, a maioria deles propõem abordagens que tratam as imagens como descrevendo um único tópico, ou seja, associadas a um único rótulo. Contudo, em busca visual é natural que as imagens tenham vários tópicos, cada um dos quais representados por diferentes rótulos que podem estar relacionados, por exemplo, com objetos de várias categorias ou diferentes conceitos associados com as imagens. Além disso, muitos desses modelos focam exclusivamente na qualidade dos rankings gerados, ignorando questões como a eficiência da busca e do uso do espaço disponível, aspectos importantes em Recuperação de Imagem. Desta forma, esta proposta investiga técnicas de hashing profundo com o intuito de tornar a tarefa de recuperação de imagem mais eficiente mantendo a qualidade do ranking de resposta compatível com o estado-da-arte. Além disso, focamos no cenário de múltiplos rótulos com o objetivo de gerar códigos hash que representem os vários níveis de similaridade entre as imagens. Mais especificamente, ao longo desta pesquisa, propusemos e estudamos arquiteturas profundas geradoras treinadas em duplas e triplas de imagens para a tarefa de recuperação de imagens multi-rótulo. As arquiteturas usadas foram autocodificadores variacionais baseados em distribuição discreta, capazes de gerar representações compactas das imagens, diretamente aplicáveis a técnicas de hashing, sem auxílio de processos intermediários não vinculados ao treino. Ao avaliarmos os métodos propostos em duas coleções de imagens multi-rótulo, uma sintética e outra real, observamos que os modelos são capazes de gerar códigos de hash binários efetivos em termos da qualidade dos rankings criados além de eficientes em termos do uso do espaço de hashing.