بیا راجع به یه ابزار جالب و جدید حرف بزنیم که مخصوص کساییه که با سیستمهای تشخیص گفتار یا همون ASR (یعنی Automatic Speech Recognition که کارش اینه حرفای مردم رو به متن تبدیل کنه) سر و کار دارن و همیشه مشکل دارن کلمات خاص و تخصصیِ مورد نظرشون رو درست شناسایی کنن.
حتماً برات پیش اومده یا شنیدی که وقتی با دستیارهای صوتی یا هر برنامهای که حرفاتو مینویسه کار میکنی، کلمات تخصصی یا اصطلاحات خاص رو اشتباه میشنون یا کلاً ول میکنن! اینجاهاست که مهم میشه بتونی یه سری hotword یا همون “کلمهی کلیدی مهم” رو بهش تعریف کنی تا دقیقتر و هوشمندتر اون کلمات رو تشخیص بده.
مشکل اینه که وقتی تعداد این کلمات کلیدی زیاد میشه، سیستمهای موجود واقعاً ضعیف میشن و نرخ شناساییشون میاد پایین. مخصوصاً وقتی داری با دنیای بزرگ هوش مصنوعی و مدلهای بزرگ صوتی مثل Audio LLM سر و کار داری. فقط واسه یادآوری، Audio LLM یعنی همون مدلهای زبانی بزرگی که با صدا و صوت کار میکنن و میتونن باهوشتر رفتار کنن.
حالا یه تیم باحال یه راهحل باحالتر معرفی کردن به اسم H-PRM! این اسم عجیب یعنی Hotword Pre-Retrieval Module یا همون ماژول پیشبازیابی کلمات کلیدی. چیکار میکنه؟ خیلی شیک و مجلسی میاد قبل از اینکه سیستم بخواد چیزی رو رسماً شناسایی کنه، یه بررسی میکنه و با مقایسه شباهت صوتی بین حرفی که زده شده و اون لیست کلمات کلیدی، بهترین و مرتبطترین کلمه کلیدی رو پیدا میکنه.
مزیت این سیستم اینه که کاملاً plug-and-play هست، یعنی هرجا بخوای خیلی راحت به سیستمهای قدیمی اضافهش میکنی. مثلاً میتونی اونو بندازی توی SeACo-Paraformer (که یه مدل معروف تشخیص گفتاره، همین مدلا که آخر اسمشون پَرافرمر داره) تا نرخ بازیابی کلمات کلیدی رو توپتر کنه. فقط این نیست! H-PRM رو حتی میتونی با کمک پرامپت (یعنی همون دستورات راهنما که به مدلهای هوش مصنوعی میدیم تا بهتر بفهمن چی میخوایم) به مدلهای Audio LLM هم اضافه کنی و به صورت خودکار، کلمات کلیدی دلخواهتو سفارشیسازی کنی. کلاً یه راه یکپارچه و بیدردسر واسه سفارشیسازی هر جور کلمه خاص.
تستهای مفصل هم نشون داده که H-PRM خیلی بهتر از چیزاییه که قبلاً بودن. دیگه وقتی لیست کلمات کلیدیات زیاد میشه، لازم نیست نگران این باشی که تشخیصشون خراب بشه. با این روش جدید، میتونی همزمان کلی hotword معرفی کنی و هنوزم سیستم دقت بالایی داشته باشه.
خلاصه اگر دنبال روش تر و تمیز و راحت برای کنترل و شخصی سازی کلمات کلیدی توی سیستمهای تشخیص گفتار میگردی، H-PRM احتمالاً همون چیزیه که دنبالش بودی!
منبع: +