تطبیق گوینده در بازشناسی گفتار پیوسته براساس تخمین MAP مبتنی بر تبدیل MLLR

سعید شریفیان و سید محمد احدی,

تطبیق گوینده در بازشناسی گفتار پیوسته براساس تخمین MAP مبتنی بر تبدیل MLLR

نویسنده

سعید شریفیان و سید محمد احدی

چکیده

روشهای مختلفی برای تطبیق گوینده در سیستمهای بازشناسی گفتار معرفی گردیده‌اند. در برخی روشها نظیر تخمین MAP تنها مدلهایی که داده آموزشی متناظرشان موجود باشد تازه سازی می‌شوند و برای بهبود قابل توجه دقت بازشناسی، داده آموزشی نسبتاً زیادی مورد نیاز است. در برخی دیگر نظیر MLLR که تعدادی تبدیلات عمومی بر روی خوشه‌های مدلها اعمال می‌شود، برای دادگان کم آموزشی نتایج مطلوبی حاصل می‌شود، اما با افزایش دادگان، کارایی به حد اشباع می‌رسد. در این مقاله روش جدیدی مطرح می‌شود که از مزایای هر دو روش فوق برای دسترسی به کیفیت بالاتر بهره می‌برد. در این روش مدلهایی که داده آموزشی آنها موجود است به کمک تخمین MAP آموزش می‌بینند و برای مدلهایی که داده آموزشی (کافی) ندارند، با استفاده از روش MLLR مقادیر پیشینه مناسب برای تخمین MAP تأمین می‌شود. این روش، در عمل، بر روی یک سیستم آموزش دیده براساس دادگان فارس دات به نتایج بهتری نسبت به هر یک از دو روش MAP و MLLR دست یافته است.

کلیدواژه‌ها

مدلهای مارکوف پنهان (HMM)

بازشناسی گفتار پیوسته فارسی

تطبیق گوینده

تخمین MAP

تبدیل MLLR

20.1001.1.2251600.1383.23.2.4.2

عنوان مقاله English

Speaker Adaptation in Continuous Speech Recognition Using MLLR-Based MAP Estimation

نویسنده English

S. Sharifian and S. M. Ahadi

چکیده English

A variety of methods are used for speaker adaptation in speech recognition. In some techniques, such as MAP estimation, only the models with available training data are updated. Hence, large amounts of training data are required in order to have significant recognition improvements. In some others, such as MLLR, where several general transformations are applied to model clusters, the results are desirable for small training data, but with increasing training data, the performance improvement reaches the saturation lvel. In this paper, a new approach is introduced that makes use of the advantages of both mentioned techniques to improve the recognition rate. Here, the models with available training data are trained using MAP while for those with insufficient training data, appropriate prior parameters for MAP estimation are found using MLLR. This technique has yielded better performance in comparison to either MAP or MLLR, in a system based on FARSDAT speech corpus.

کلیدواژه‌ها English

Hidden Markov models (HMM)

continuous Persian (Farsi) speech recognition

Speaker adaptation

MAP estimation

MLLR transformation