83. Reconhecimento de Locutor baseado em Mascaramento Pleno em Freqüência por Oitavas

[Speaker Recognition Based on Octave Band Auditory Masking]


This paper introduces a novel and low-complexity speaker identification technique. It is based on one of the key-properties of the human hearing perception: the auditory frequency masking. The feature vectors of voice frames are merely represented by the average amplitude of the greatest spectral samples within each octave. Both text-dependent and text-independent speaker recognition is investigated. Results corroborate a tradeoff between recognition efficiency and complexity of this kind of vocoder-based systems, being thereby attractive for embedded systems.

 

Este artigo propõe um novo método de baixa complexidade computacional para reconhecimento de locutor, baseando-se em uma das propriedades-chave da percepção auditiva humana: o mascaramento acústico em freqüência. O vetor característico dos quadros do sinal de voz é representado pela fração média das amplitudes dos tons de mascaramento em cada oitava. Ambos os tipos de reconhecimento de locutor (de texto dependente e de texto independente) são estudados. Os resultados confirmam que o algoritmo proposto oferece um compromisso entre a complexidade e a taxa de identificações corretas, sendo atrativo para aplicações em sistemas embarcados.