Методи автоматичної ідентифікації диктора за голосом
DOI:
https://doi.org/10.33099/2304-2745/2018-3-64/131-135Ключові слова:
Мовний сигнал, диктор, розпізнавання, динамічна трансформація часової шкали, приховані марковські процеси, векторне квантування, опорні вектори, гаусові суміші.Анотація
Кожна людина має індивідуальні голосові характеристики, які визначаються особливостями будови його голосових органів. У процесі спілкування люди здатні на підсвідомому рівні розрізняти голоси інших людей, однак для обчислювальної техніки ця задача є нетривіальною і вимагає цілеспрямованих досліджень.
Мета статті ‑ аналіз існуючих методів розпізнавання мовної інформації, визначення їх слабких і сильних сторін для обгрунтування вибору найбільш сприйнятливого стосовно розпізнавання диктора за голосом.
Зростання світового ринку пристроїв розпізнавання голосу залежить від множини факторів. Одним з основних факторів є збільшення попиту на послуги голосової біометрії. Зі збільшенням складності і частоти порушень безпеки, остання продовжує залишатися одним з основних вимог для Збройних Сил України. Високий попит голосової біометрії, яка є унікальною для будь-якої людини, має вирішальне значення у встановленні особи людини.
Військові відомства в більшості країн використовують вкрай обмежені зони для того, щоб запобігти проникненню зловмисників. Для забезпечення секретності і безпеки в цій зоні, військові використовують системи розпізнавання голосу.
Будь-яка система розпізнавання працює в двох режимах: в режимі реєстрації та режимі ідентифікації. Іншими словами, необхідно мати приклад голосу.
На даний час існує певна кількість методів, що дають змогу вирішувати завдання текстонезалежної ідентифікації диктора за голосом, причому кожен із наведених методів має свої переваги та недоліки. Проте, найбільш поширеним методом є Gaussian Mixture Model. Моделі гаусових сумішей добре себе зарекомендували в якості стохастичної моделі для побудови систем розпізнавання. Вони зручні не тільки для моделювання характеристик голосу диктора, але і каналу звукозапису, навколишнього середовища.
Ефективна система розпізнавання мови має враховувати такі етапи обробки вхідного сигналу, як видалення шуму, сегментація, виділення вокалізованих ділянок, параметризація, розпізнавання, коригування за словником з оберненим зв’язком.Посилання
Campbell J. P. Speaker Recognition: A Tutorial // Proceedings of the IEEE.1997. Vol. 85, № 9. P. 1437-1462.
Ing-Jr Ding, Chih-Ta Yen, Yen-Ming Hsu. Development so Machine Learning Schemes for Dynamic Time-Wrapping-Based Speech Recognition // Mathematical Problems in Engineering. 2013.
Daniel Ram age. Hidden Markov Models Fundamentals // CS229 Section Notes. 2007.
Методы автоматического распознавания речи: в 2-х кн. / под ред. У. Ли ; пер. с англ. О. В. Александровой ; под ред. А. А. Воронова. М.: МИР, 1983. – Кн. 1. – 328 с.
Boser B., Guyon I., Vapnik V. A training algorithm for optimal margin classifier // in Proc. Of the Fifth Annual ACM Workshop on Computational Learning Theory. 1992. Р. 144–152.
Vapnik V.The Nature of Statistical Learning Theory / V. Vapnik, Springer, Second Edition, 1999.
Кульбак С. Теория информации и статистика. М.: Наука, 1967. 408 с.
X. Huang, A. Acero, H. Hon. Spoken language processing: a guide to theory, algorithm, and system development. – Prentice Hall PTR, 2001. Р. 936.
Forum S. Digital Speech Processing, Synthesis and Recognition // Marcel Dekker, New York, 1989.