Аналіз впливу параметрів обробки звукового сигналу на якість розпізнавання голосових команд
DOI:
https://doi.org/10.20535/RADAP.2014.56.34-41Ключові слова:
розпізнавання мови, голосові команди, мелкепстральні коефіцієнти, динамічне викривлення часуАнотація
В роботі розглянуто структуру системи розпізнавання голосових команд, алгоритм виділення мелкепстральних коефіцієнтів та їх порівняння методом динамічного викривлення часу. В системі зі словником з п’ятдесяти команд вимовлених одним диктором було досліджено вплив на якість розпізнавання голосової команди таких параметрів як: частоти дискретизації, тривалості фрейму, кількості вибірок Фур’є, виду віконної функції на якість розпізнавання голосової команди.Посилання
Перелік посилань
Яцковський В.С. Алгоритм оцінювання темпу музикальних сигналів / В. С. Яцковський, Д.М. Бруслік // Електроніка та системи управління. – 2012. – № 31. – с. 5-9.
Dhingra S. D. Isolated speech recognition using MFCC and DTW / S. D. Dhingra, G. Nijhawan, P. Pandit // International Journal of Advanced Research in Electrical, Electronics and Instrumentation Engineering. – 2007. – Vol. 2, No 8. – pp. 4085 - 4092.
Гладышев К. К. Информативные признаки на основе линейных спек-тральных корней в системах распознавания команд: автореф. дис. на соискание ученой степени канд. техн. наук: спец. 05.13.01 – «Системный анализ, управление и обработка информации» / Гладышев Константин Константинович; СПб. госуд. унив. телекоммуникаций им. проф. М.А. Бонч–Бруевича. – СПб, 2010. – 16 с.
Al–Naymat G. SparseDTW: A Novel Approach to Speed up Dynamic Time Warping. / G. Al–Naymat, S. Chawla, J. Taheri // The 2009 Australasian Data Mining. – 2009. – Vol. 101 – pp. 117–127.
Muda L. Voice Recognition Algorithms using Mel–Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques. / L. Muda, M. Begam, I. Elamvazuthi // Journal of computing. – 2010. – Vol. 2, No 3. – pp.
Колоколов А. С. Обработка сигнала в частотной области при распознавании речи. / А. С. Колоколов // Проблемы управления. – № 3. – 2006 г. c. 13–18.
References
Yatskovsky V.S. and Bruslik D.N. (2012) Algorithm of tempo estimation of musical signals. Electronics and Control Systems. No 31, pp. 5-9.
Dhingra S.D. and Nijhawan G. (2007) Isolated speech recognition using MFCC and DTW. International Journal of Advanced Research in Electrical, Electronics and Instrumentation Engineering. Vol. 2, No. 8, pp. 4085 – 4092.
Gladyshev K. K. (2010) Informativnye priznaki na osnove linejnyh spektral'nyh kornej v sistemah raspoznavanija komand. Diss. Cand.. Tekhn. nauk [Informative features based on linear spectral roots in commands recognition systems. Cand. Sci. diss.]. Saint-Petersburg, The Bonch-Bruevich Saint - Petersburg State University of Telecommunications, 16 p. Available at: www.sut.ru/doci/nauka/avtoref/glad.doc
Al-Naymat G., Chawla S. and Taheri J. (2009) SparseDTW: A Novel Approach to Speed up Dynamic Time Warping. The 2009 Australasian Data Mining. Vol. 101, Melbourne, Australia, ACM Digital Library, pp. 117-127.
Muda L., Begam M. and Elamvazuthi I. (2010) Voice Recognition Algorithms using Mel–Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques. Journal of computing. Vol. 2, No 3, pp. 138–143.
Kolokolov A.S. (2006) Frequency domain signal processing in speech recognition. Control Science. No 3, pp. 13-18. (In Russian)
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
1. Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у нашому журналі.
2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована нашим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у нашому журналі.
3. Політика журналу дозволяє і заохочує розміщення рукопису роботи авторами в мережі Інтернет (наприклад, на arXiv.org або на особистих веб-сайтах). Причому рукописи статей можуть бути розміщенні у відкритих архівах як до подання рукопису до редакції, так і під час його редакційного опрацювання. Це сприяє виникненню продуктивної наукової дискусії, позитивно позначається на оперативності ознайомлення наукової спільноти з результатами Ваших досліджень і як наслідок на динаміці цитування вже опублікованої у журналі роботи. Детальніше про це: The Effect of Open Access.