/img alt="Imagem da capa" class="recordcover" src="""/>
Dissertação
Reconhecimento de indivíduos multimodal (face e voz): análise comparativa entre uma abordagem de aprendizado de máquina clássica e uma proposta utilizando rede neural profunda
Os seres humanos utilizam características do corpo como rosto, voz e olhos em conjunto com outras informações contextuais para se reconhecerem. O reconhecimento biométrico busca identificar um indivíduo utilizando características comportamentais, físicas ou psicológicas. Esse trabalho apresenta uma...
Autor principal: | Negreiro, João Victor Campos de |
---|---|
Outros Autores: | http://lattes.cnpq.br/6917188695281102 |
Grau: | Dissertação |
Idioma: | por |
Publicado em: |
Universidade Federal do Amazonas
2023
|
Assuntos: | |
Acesso em linha: |
https://tede.ufam.edu.br/handle/tede/9241 |
id |
oai:https:--tede.ufam.edu.br-handle-:tede-9241 |
---|---|
recordtype |
dspace |
spelling |
oai:https:--tede.ufam.edu.br-handle-:tede-92412023-01-11T05:03:55Z Reconhecimento de indivíduos multimodal (face e voz): análise comparativa entre uma abordagem de aprendizado de máquina clássica e uma proposta utilizando rede neural profunda Negreiro, João Victor Campos de Costa, Marly Guimarães Fernandes http://lattes.cnpq.br/6917188695281102 http://lattes.cnpq.br/7169358412541736 Pereira, José Raimundo Gomes Oliveira, Jozias Parente de Aprendizado do computador Biometria - Programas de computador Identificação biométrica ENGENHARIAS: ENGENHARIA ELETRICA: ELETRONICA INDUSTRIAL, SISTEMAS E CONTROLES ELETRONICOS: AUTOMACAO ELETRONICA DE PROCESSOS ELETRICOS E INDUSTRIAIS CIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAO: METODOLOGIA E TECNICAS DA COMPUTACAO: LINGUAGENS DE PROGRAMACAO Reconhecimento biométrico Aprendizado de máquina Face-voz Rede neural profunda Aprendizado por quantização vetorial Rede neural convolucional Os seres humanos utilizam características do corpo como rosto, voz e olhos em conjunto com outras informações contextuais para se reconhecerem. O reconhecimento biométrico busca identificar um indivíduo utilizando características comportamentais, físicas ou psicológicas. Esse trabalho apresenta uma análise comparativa entre uma abordagem de aprendizado de máquina clássica e uma proposta utilizando rede neural profunda na atividade de reconhecimento de indivíduo. Utilizaram-se dois modos biométricos: face e voz. Estes dados foram obtidos da base de dados bimodal MOBIO (MCCOOL et al, 2012). Utilizaram-se 50 indivíduos, sendo 37 homens e 13 mulheres. Aplicou-se um pré-processamento nas imagens, extraindo a face, padronizando em 64x80 e convertendo para monocromática. Foi utilizado um autoencoder para obter uma representação reduzida dos dados da face. Para voz, optou-se por um detector de atividade para classificar trechos de áudios com ou sem voz. Extraíram-se coeficientes Mel-Cepstrais e seus coeficientes derivados, compondo 39 coeficientes. Foram desenvolvidos modelos unimodais e multimodais de identificação biométrica, totalizando 6 arquiteturas. O modelo multimodal com técnicas de aprendizagem de máquina possui uma etapa fusão à nível de pontuação e aprendizado por quantização vetorial (LVQ). O modelo multimodal com técnicas de aprendizado profundo de máquina possui uma fusão a nível de característica e uma rede neural convolucional (CNN). Testaram-se as arquiteturas propostas em diversos cenários de clusters, quantidade de frames de áudio, dimensão da camada de codificação, quantidade de coeficientes MFCCs, regularização e otimizadores. Avaliaram-se os sistemas através da área sobre a curva ROC (AUC-ROC), taxa de verdadeiros positivos e taxa de falsos positivos e o limiar do melhor ponto de operação. Além disso, mediu-se o tempo de treinamento e testes das redes elaboradas. Os resultados mostram que para a proposta multimodal com LVQ foi obtido AUC-ROC de 0,98 e a proposta multimodal com CNN teve um valor de AUC-ROC de 0,99. Os resultados apontaram que a utilização de aprendizagem profunda produz melhores desempenhos, além de treinamentos mais otimizados. Assim, as arquiteturas propostas neste trabalho podem constituir um bom ponto de partida para implementação de um sistema robusto de identificação automática de indivíduos. Humans use body features such as face, voice and eyes in conjunction with other contextual information to recognize themselves. Biometric recognition seeks to identify an individual using behavioral, physical or psychological characteristics. This work presents a comparative analysis between a classical machine learning approach and a proposal using a deep neural network in the individual recognition activity. Two biometric modes were used: face and voice. These data were obtained from the MOBIO bimodal database (MCCOOL et al, 2012). Fifty individuals were used, 37 men and 13 women. A pre-processing was applied to the images, extracting the face, standardizing it in 64x80 and converting it to monochrome. An autoencoder was used to obtain a reduced face data representation. For voice, an activity detector was chosen to classify audio excerpts with or without voice. Mel Cepstral coefficients and their derived coefficients were extracted, composing 39 coefficients. Unimodal and multimodal models of biometric identification were developed, totaling 6 architectures. The multimodal model with machine learning techniques has a fusion step at the scoring level and Learning Vector Quantization (LVQ). The multimodal model with deep machine learning techniques has a feature level fusion and a Convolutional Neural Network (CNN). The proposed architectures were tested in different cluster scenarios, audio frames number, encoding layer dimension, MFCCs coefficients number, regularization and optimizers. The systems were evaluated through the area under the ROC curve (AUC-ROC), True Acceptance Rate (TAR) and False Acceptance Rate (FAR) and best operating point threshold. In addition, the training and testing time of networks was measured. The results show that for the multimodal proposal with LVQ, an AUC-ROC of 0.98 was obtained and the multimodal proposal with CNN reached an AUC-ROC value of 0.99. The results showed that deep learning produces better performances, in addition to more optimized training. Thus, the architectures proposed in this work can constitute a good starting point for implementing a robust system for automatic identification of individuals. FAPEAM - Fundação de Amparo à Pesquisa do Estado do Amazonas 2023-01-10T18:49:57Z 2022-11-03 Dissertação NEGREIRO, João Victor Campos de. Reconhecimento de indivíduos multimodal (face e voz): análise comparativa entre uma abordagem de aprendizado de máquina clássica e uma proposta utilizando rede neural profunda. 2022. 103 f. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Federal do Amazonas, Manaus (AM), 2022. https://tede.ufam.edu.br/handle/tede/9241 por Acesso Aberto http://creativecommons.org/licenses/by/4.0/ application/pdf Universidade Federal do Amazonas Faculdade de Tecnologia Brasil UFAM Programa de Pós-graduação em Engenharia Elétrica |
institution |
TEDE - Universidade Federal do Amazonas |
collection |
TEDE-UFAM |
language |
por |
topic |
Aprendizado do computador Biometria - Programas de computador Identificação biométrica ENGENHARIAS: ENGENHARIA ELETRICA: ELETRONICA INDUSTRIAL, SISTEMAS E CONTROLES ELETRONICOS: AUTOMACAO ELETRONICA DE PROCESSOS ELETRICOS E INDUSTRIAIS CIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAO: METODOLOGIA E TECNICAS DA COMPUTACAO: LINGUAGENS DE PROGRAMACAO Reconhecimento biométrico Aprendizado de máquina Face-voz Rede neural profunda Aprendizado por quantização vetorial Rede neural convolucional |
spellingShingle |
Aprendizado do computador Biometria - Programas de computador Identificação biométrica ENGENHARIAS: ENGENHARIA ELETRICA: ELETRONICA INDUSTRIAL, SISTEMAS E CONTROLES ELETRONICOS: AUTOMACAO ELETRONICA DE PROCESSOS ELETRICOS E INDUSTRIAIS CIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAO: METODOLOGIA E TECNICAS DA COMPUTACAO: LINGUAGENS DE PROGRAMACAO Reconhecimento biométrico Aprendizado de máquina Face-voz Rede neural profunda Aprendizado por quantização vetorial Rede neural convolucional Negreiro, João Victor Campos de Reconhecimento de indivíduos multimodal (face e voz): análise comparativa entre uma abordagem de aprendizado de máquina clássica e uma proposta utilizando rede neural profunda |
topic_facet |
Aprendizado do computador Biometria - Programas de computador Identificação biométrica ENGENHARIAS: ENGENHARIA ELETRICA: ELETRONICA INDUSTRIAL, SISTEMAS E CONTROLES ELETRONICOS: AUTOMACAO ELETRONICA DE PROCESSOS ELETRICOS E INDUSTRIAIS CIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAO: METODOLOGIA E TECNICAS DA COMPUTACAO: LINGUAGENS DE PROGRAMACAO Reconhecimento biométrico Aprendizado de máquina Face-voz Rede neural profunda Aprendizado por quantização vetorial Rede neural convolucional |
description |
Os seres humanos utilizam características do corpo como rosto, voz e olhos em conjunto com outras informações contextuais para se reconhecerem. O reconhecimento biométrico busca identificar um indivíduo utilizando características comportamentais, físicas ou psicológicas. Esse trabalho apresenta uma análise comparativa entre uma abordagem de aprendizado de máquina clássica e uma proposta utilizando rede neural profunda na atividade de reconhecimento de indivíduo. Utilizaram-se dois modos biométricos: face e voz. Estes dados foram obtidos da base de dados bimodal MOBIO (MCCOOL et al, 2012). Utilizaram-se 50 indivíduos, sendo 37 homens e 13 mulheres. Aplicou-se um pré-processamento nas imagens, extraindo a face, padronizando em 64x80 e convertendo para monocromática. Foi utilizado um autoencoder para obter uma representação reduzida dos dados da face. Para voz, optou-se por um detector de atividade para classificar trechos de áudios com ou sem voz. Extraíram-se coeficientes Mel-Cepstrais e seus coeficientes derivados, compondo 39 coeficientes. Foram desenvolvidos modelos unimodais e multimodais de identificação biométrica, totalizando 6 arquiteturas. O modelo multimodal com técnicas de aprendizagem de máquina possui uma etapa fusão à nível de pontuação e aprendizado por quantização vetorial (LVQ). O modelo multimodal com técnicas de aprendizado profundo de máquina possui uma fusão a nível de característica e uma rede neural convolucional (CNN). Testaram-se as arquiteturas propostas em diversos cenários de clusters, quantidade de frames de áudio, dimensão da camada de codificação, quantidade de coeficientes MFCCs, regularização e otimizadores. Avaliaram-se os sistemas através da área sobre a curva ROC (AUC-ROC), taxa de verdadeiros positivos e taxa de falsos positivos e o limiar do melhor ponto de operação. Além disso, mediu-se o tempo de treinamento e testes das redes elaboradas. Os resultados mostram que para a proposta multimodal com LVQ foi obtido AUC-ROC de 0,98 e a proposta multimodal com CNN teve um valor de AUC-ROC de 0,99. Os resultados apontaram que a utilização de aprendizagem profunda produz melhores desempenhos, além de treinamentos mais otimizados. Assim, as arquiteturas propostas neste trabalho podem constituir um bom ponto de partida para implementação de um sistema robusto de identificação automática de indivíduos. |
author_additional |
Costa, Marly Guimarães Fernandes |
author_additionalStr |
Costa, Marly Guimarães Fernandes |
format |
Dissertação |
author |
Negreiro, João Victor Campos de |
author2 |
http://lattes.cnpq.br/6917188695281102 |
author2Str |
http://lattes.cnpq.br/6917188695281102 |
title |
Reconhecimento de indivíduos multimodal (face e voz): análise comparativa entre uma abordagem de aprendizado de máquina clássica e uma proposta utilizando rede neural profunda |
title_short |
Reconhecimento de indivíduos multimodal (face e voz): análise comparativa entre uma abordagem de aprendizado de máquina clássica e uma proposta utilizando rede neural profunda |
title_full |
Reconhecimento de indivíduos multimodal (face e voz): análise comparativa entre uma abordagem de aprendizado de máquina clássica e uma proposta utilizando rede neural profunda |
title_fullStr |
Reconhecimento de indivíduos multimodal (face e voz): análise comparativa entre uma abordagem de aprendizado de máquina clássica e uma proposta utilizando rede neural profunda |
title_full_unstemmed |
Reconhecimento de indivíduos multimodal (face e voz): análise comparativa entre uma abordagem de aprendizado de máquina clássica e uma proposta utilizando rede neural profunda |
title_sort |
reconhecimento de indivíduos multimodal (face e voz): análise comparativa entre uma abordagem de aprendizado de máquina clássica e uma proposta utilizando rede neural profunda |
publisher |
Universidade Federal do Amazonas |
publishDate |
2023 |
url |
https://tede.ufam.edu.br/handle/tede/9241 |
_version_ |
1831970139388510208 |
score |
11.753735 |