سیستم تشخیص گفتار ضعف ها و محدودیت ها

خلاصه
1397/08/08

هیچ برنامه تشخیص گفتاری که بتواند صد در صد درست عمل کند وجود ندارد، چندین عامل وجود دارند که می توانند میزان دقت این برنامه را کاهش دهند

سیستم تشخیص گفتار : ضعف ها و محدودیت ها


هیچ برنامه تشخیص گفتاری که بتواند صد در صد درست عمل کند وجود ندارد، چندین عامل وجود دارند که می توانند میزان دقت این برنامه را کاهش دهند و یا استفاده از آن ها را محدود کنند : ورودی سر و صدای محیط (Noise)
برنامه باید واژه هایی که ادا می شوند به طور واضح بشنود . هر نوع صدای اضافی همزمان با  صدای گوینده وارد شود می تواند با واج های صوتی اشتباه گرفته شود و در این فرایند تداخل ایجاد کند. منبع نویز می تواند بسیار گوناگون  باشد. مثل نویز موجود در صدای پس زمینه  در یک محیط اداری و شلوغ که برای حذف آن ها در هنگام استفاده کاربران باید در یک مکان نسبتا آرام مستقر شوند و از میکروفن با کیفیت ( مثل میکروفون های noise-canseling) استفاده کنند و یا در هنگام صحبت میکروفن را در نزدیکی دهان خود قرار دهند .
گاهی نیز کارت های صوتی کیفیت پایین باعث کم شدن دقت سیستم می شوند این کارت  اغلب فاقد لایه های  محافظ در برابر سیگنال  الکتریکی ایجاد شده توسط سایر اجزای کامپیوتر هستند  و می تواند صدای hum یا hiss را به  سیگنال ( صوتی ) وارد کنند.
امروزه با به کار گیری " نرم افزار بهبود کیفیت" به همراه این فناوری تا حد زیادی سر و صدای محیط و خش های اضافی قابل حذف شدن می باشد.  این محصول می تواند هم به صورت نرم افزاری مستقل مورد استفاده قرار می گیرد و هم به صورت یک امکان مجزا برای  بهبود کیفیت گفتار و در نتیجه بهبود کارایی و دقت در نرم افزارهای  دیگر بکار گرفته شود. این نرم افزار یکی از محصولات گروه SPL دانشگاه صنعت شریف می باشد.
اثر گذاری کلمات بر یکدیگر  و نحوه تلفظ آن ها
اثر گذاری کلمات بر روی همدیگر هنگام ادا شدن توسط گوینده ها و حتی حذف شدن  واج های ابتدایی و انتهایی هنگام چسپیدن کلمات به هم کار تشخیص را مشکل می سازد. همچنین نحوه تلفظ کلمات توسط افراد مختلف و وجود لهجه های گوناگون بر دقت سیستم تاثیر می گذارند. در یک محیط کاری ،کاربران اصلی برنامه باید زمان نسبتا زیادی را صرف صحبت کردن در سیستم کنند تا سیستم را با الگوی تلفظی خود آموزش دهند و آن را با گفتار خود هماهنگ کنند و همچنین آن ها باید سیستم ها را با واژه ها ، اصطلاحات و کلمات مترادف ویژه ای که در آن محیط استفاده می کنند، آموزش دهند. نسخه های ویژه ایاز برنامه های تشخیص صدا (که معمولا وابسته به گوینده هستند) برای دفاتر قانونی یا مراکز درمانی وجود دارد که دارای واژه های مصطلح و رایجی که در این محیط ها بکار برده می شوند هستند.
کلمات متشابه (Homoym ها)
Homoym ها واژه هایی هستند که از نظر تلفظ شبیه به هم هستند اما از نظر معنی و ریشه و گاهی املاء  با هم فرق دارند. There،their ،air،be وbee مثال هایی از این نوع کلمات هستند.
هیچ راهی برای یک برنامه تشخیص صدا وجود ندارد که بتواند به طور دقیق تفاوت بین این واژه ها را بر اساس صدا به تنهایی تشخیص دهد. هر چند که آموزش های بسیار زیاد سیستم ها و مدل های آماری که امروزه به کار می رود تا حد زیادی کارایی این برنامه ها را افزایش داده است.
 ایجاد سرو صدا
ایجاد سر و صدا یکی از محدودیت های این سیستم ها است. با توجه به لزوم تعامل صوتی انسان با این سیستم در هنگام استفاده از این مشکل امری طبیعی است ولیکن برای کاهش مزاحمت و افزایش کارایی بهتر است که از این فناوری در محیط های خاص  در بسته و مجزا استفاده شود. محدودیت دیگری که هنگام کار با این سیستم با آن مواجه می شویم خطر فاش شدن اطلاعات شخصی و محرمانه هنگام ورود اطلاعات است.
یک راه ابتکاری و البته معقول وجود دارد و آن استفاده از ماسک های مخصوص مجهز به میکرفن حساس است. با استفاده از این ماسک ها  می توان با پایین ترین فرکانس صوتی ممکن صحبت کرد به طوری که دیگران صدای ما نشنوند و در عین حال مطمئن باشیم که صدای ما از طریق میکرفن وارد شده است.