Сучасні методи автоматичної ідентифікації диктора за голосом
DOI:
https://doi.org/10.33099/2304-2745/2019-2-66/89-95Ключові слова:
Голосовий сигнал, диктор, розпізнавання, динамічна трансформація часової шкали, приховані марковські процеси, векторне квантування, опорні вектори, гаусові суміші.Анотація
Сучасні методи ідентифікації мови в реальному часі висувають високі вимоги до обчислювальних ресурсів, але часто їх обсяг обмежений. Так, в мобільних пристроях неможливо застосовувати багато з існуючих алгоритмів, що змушує шукати більш ефективні методи. У виконанні завдання ідентифікації диктора зацікавлені державні установи, бізнес-структури та інші категорії різних користувачів інформаційних послуг. В даний час ведуться інтенсивні наукові дослідження ідентифікації людини за голосом, проте реальне застосування таких систем на практиці обмежена обчислювальними ресурсами і складністю різних алгоритмів, що підтверджується регулярними річними звітами логістичної компанії Gartner Group. За даними компанії, лише невелика кількість користувачів (до 1% від загального числа) задоволена ефективністю систем розпізнавання голосових характеристик диктора.
Метою статті є проведення аналізу існуючих методів автоматичного розпізнавання голосу та визначення їх слабких та сильних сторін для вибору найбільш кращого і адаптивного методу розпізнавання диктору за голосом.
Незважаючи на те, що методи багато в чому відрізняються, в цілому можна виділити наступні основні етапи, характерні для кожного з розглянутих методів: рівень обробки сигналів, рівень моделей, рівень прийняття рішень. В статті розглянуті наступні методи.
DynamicTimeWarping (DTW) – метод динамічної трансформації часової шкали дає змогу знайти близькість між двома послідовностями вимірювань за деякий проміжок часу.
HiddenMarkovModel (HMM) – прихована марківська модель ‑ статистична модель, яка може використовуватися для вирішення задачі класифікації прихованих параметрів на основі спостережуваних.
VectorQuantization (векторне квантування) – розбиття простору можливих значень векторної величини на кінцеве число областей.
GaussianMixtureModel (модель гаусових сумішей) ‑ представляє собою параметричну функцію щільності ймовірності.
Моделі гаусових сумішей добре себе зарекомендували в якості стохастичної моделі для побудови систем розпізнавання. Вони зручні не тільки для моделювання характеристик голосу диктора, але і каналу звукозапису, навколишнього середовища.Посилання
Campbell J.P. Speaker Recognition: A Tutorial // Proceedings of the IEEE. 1997. Vol. 85, № 9. pp. 1437-1462.
Ing-Jr Ding, Chih-Ta Yen, Yen-Ming Hsu. Developments of Machine Learning Schemes for Dynamic Time-Wrapping-Based Speech Recognition // Mathematical Problems in Engineering. 2013.
Daniel Ramage. Hidden Markov Models Fundamentals // CS229 Section Notes. 2007.
Mamou J., Mass Y., Ramabhadran B., Sznajder B. Combination of multiple speech transcription methods for vocabulary independent search // In proceedings of the ACM SIGIR Workshop `Searching Spontaneous Conversational Speech. Singapore. 2008. pp. 20-27.
Вишняков Р. Ю. Интеллектуальные информационно-поисковые системы. Лингвистический анализ // Перспективные информационные технологии и интеллектуальные системы. 2006. № 4. С. 37-42.
Garofolo J., Auzanne G., and Voorhees E. The trec spoken document retrieval track: A success story. // In proceedings of the Recherche d'Informations Assiste par Ordinateur: Content Based Multimedia Information Access Conference, 2000. pp. 1-20.
Huijbregts M., Ordelman R., Jong F. Annotation of heterogeneous multimedia content using automatic speech recognition // In Proceedings of the second international conference on Semantics And digital Media Technologies 143 (SAMT). Lecture Notes in Computer Science. Berlin. Springer Verlag. December 2007. pp. 78-90.
Методы автоматического распознавания речи: в 2-х кн. / под ред. У. Ли; пер. с англ. О.В. Александровой; под ред. А. А. Воронова. М. : МИР, 1983. Кн. 1. 328 с.
Reynolds D.A. Speaker identication and verication using Gaussian mixture speaker models / D.A. Reynolds. Helsinki: Speech Commun, 1995.
Кульбак С. Теория информации и статистика. М.: Наука, 1967. 408 с.
X. Huang, A. Acero, H. Hon. Spoken languageprocessing: a guide to theory, algorithm, and systemdevelopment. – Prentice Hall PTR, 2001. р. 936.
Furui S. Digital Speech Processing, Synthesis and Recognition // Marcel Dekker, New York, 1989.
Navratil J., Klusacek D. On linear DETs // Internat. Conf. on Acoustics, Speech, and Signal Processing (ICASSP-07). 2007.
Martin A., Doddington G., Kamm T., Ordowski M., Przybocki M. The det curve in assessment of detection task performance // Proc. of Eurospeech. 1997. V. 4. pp. 1895-1898