Сучасні методи автоматичної ідентифікації диктора за голосом

Автор(и)

  • М. В. Ткаченко Київський національний університет імені Тараса Шевченка, Україна https://orcid.org/0000-0003-2929-3495
  • Р. М. Федоренко Київський національний університет імені Тараса Шевченка, Україна https://orcid.org/0000-0001-9433-5458
  • Д. С. Берестов Центр воєнно-стратегічних досліджень Національного університету оборони України імені Івана Черняховського, Україна https://orcid.org/0000-0002-3918-2978

DOI:

https://doi.org/10.33099/2304-2745/2019-2-66/89-95

Ключові слова:

Голосовий сигнал, диктор, розпізнавання, динамічна трансформація часової шкали, приховані марковські процеси, векторне квантування, опорні вектори, гаусові суміші.

Анотація

Сучасні методи ідентифікації мови в реальному часі висувають високі вимоги до обчислювальних ресурсів, але часто їх обсяг обмежений. Так, в мобільних пристроях неможливо застосовувати багато з існуючих алгоритмів, що змушує шукати більш ефективні методи. У виконанні завдання ідентифікації диктора зацікавлені державні установи, бізнес-структури та інші категорії різних користувачів інформаційних послуг. В даний час ведуться інтенсивні наукові дослідження ідентифікації людини за голосом, проте реальне застосування таких систем на практиці обмежена обчислювальними ресурсами і складністю різних алгоритмів, що підтверджується регулярними річними звітами логістичної компанії Gartner Group. За даними компанії, лише невелика кількість користувачів (до 1% від загального числа) задоволена ефективністю систем розпізнавання голосових характеристик диктора.

Метою статті є проведення аналізу існуючих методів автоматичного розпізнавання голосу та визначення їх слабких та сильних сторін для вибору найбільш кращого і адаптивного методу розпізнавання диктору за голосом.

Незважаючи на те, що методи багато в чому відрізняються, в цілому можна виділити наступні основні етапи, характерні для кожного з розглянутих методів: рівень обробки сигналів, рівень моделей, рівень прийняття рішень. В статті розглянуті наступні методи.

DynamicTimeWarping (DTW) – метод динамічної трансформації часової шкали дає змогу знайти близькість між двома послідовностями вимірювань за деякий проміжок часу.

HiddenMarkovModel (HMM) – прихована марківська модель ‑ статистична модель, яка може використовуватися для вирішення задачі класифікації прихованих параметрів на основі спостережуваних.

VectorQuantization (векторне квантування) – розбиття простору можливих значень векторної величини на кінцеве число областей.

GaussianMixtureModel (модель гаусових сумішей) ‑ представляє собою параметричну функцію щільності ймовірності.

Моделі гаусових сумішей добре себе зарекомендували в якості стохастичної моделі для побудови систем розпізнавання. Вони зручні не тільки для моделювання характеристик голосу диктора, але і каналу звукозапису, навколишнього середовища.

Біографії авторів

М. В. Ткаченко, Київський національний університет імені Тараса Шевченка

канд. техн. наук

Р. М. Федоренко, Київський національний університет імені Тараса Шевченка

канд. екон. наук

Д. С. Берестов, Центр воєнно-стратегічних досліджень Національного університету оборони України імені Івана Черняховського

канд. техн. наук

Посилання

Campbell J.P. Speaker Recognition: A Tutorial // Proceedings of the IEEE. 1997. Vol. 85, № 9. pp. 1437-1462.

Ing-Jr Ding, Chih-Ta Yen, Yen-Ming Hsu. Developments of Machine Learning Schemes for Dynamic Time-Wrapping-Based Speech Recognition // Mathematical Problems in Engineering. 2013.

Daniel Ramage. Hidden Markov Models Fundamentals // CS229 Section Notes. 2007.

Mamou J., Mass Y., Ramabhadran B., Sznajder B. Combination of multiple speech transcription methods for vocabulary independent search // In proceedings of the ACM SIGIR Workshop `Searching Spontaneous Conversational Speech. Singapore. 2008. pp. 20-27.

Вишняков Р. Ю. Интеллектуальные информационно-поисковые системы. Лингвистический анализ // Перспективные информационные технологии и интеллектуальные системы. 2006. № 4. С. 37-42.

Garofolo J., Auzanne G., and Voorhees E. The trec spoken document retrieval track: A success story. // In proceedings of the Recherche d'Informations Assiste par Ordinateur: Content Based Multimedia Information Access Conference, 2000. pp. 1-20.

Huijbregts M., Ordelman R., Jong F. Annotation of heterogeneous multimedia content using automatic speech recognition // In Proceedings of the second international conference on Semantics And digital Media Technologies 143 (SAMT). Lecture Notes in Computer Science. Berlin. Springer Verlag. December 2007. pp. 78-90.

Методы автоматического распознавания речи: в 2-х кн. / под ред. У. Ли; пер. с англ. О.В. Александровой; под ред. А. А. Воронова. М. : МИР, 1983. Кн. 1. 328 с.

Reynolds D.A. Speaker identication and verication using Gaussian mixture speaker models / D.A. Reynolds. Helsinki: Speech Commun, 1995.

Кульбак С. Теория информации и статистика. М.: Наука, 1967. 408 с.

X. Huang, A. Acero, H. Hon. Spoken languageprocessing: a guide to theory, algorithm, and systemdevelopment. – Prentice Hall PTR, 2001. р. 936.

Furui S. Digital Speech Processing, Synthesis and Recognition // Marcel Dekker, New York, 1989.

Navratil J., Klusacek D. On linear DETs // Internat. Conf. on Acoustics, Speech, and Signal Processing (ICASSP-07). 2007.

Martin A., Doddington G., Kamm T., Ordowski M., Przybocki M. The det curve in assessment of detection task performance // Proc. of Eurospeech. 1997. V. 4. pp. 1895-1898

##submission.downloads##

Опубліковано

2020-02-13

Номер

Розділ

ВОЄННО-ПРИКЛАДНІ ПИТАННЯ СИСТЕМНОГО АНАЛІЗУ ТА МАТЕМАТИЧНОГО МОДЕЛЮВАННЯ