ماژول H-PRM: راه‌حل جدید و خفن برای شخصی‌سازی کلمات کلیدی توی سیستم‌های تشخیص گفتار!

Fall Back

بیا راجع به یه ابزار جالب و جدید حرف بزنیم که مخصوص کساییه که با سیستم‌های تشخیص گفتار یا همون ASR (یعنی Automatic Speech Recognition که کارش اینه حرفای مردم رو به متن تبدیل کنه) سر و کار دارن و همیشه مشکل دارن کلمات خاص و تخصصیِ مورد نظرشون رو درست شناسایی کنن.

حتماً برات پیش اومده یا شنیدی که وقتی با دستیارهای صوتی یا هر برنامه‌ای که حرفاتو می‌نویسه کار می‌کنی، کلمات تخصصی یا اصطلاحات خاص رو اشتباه می‌شنون یا کلاً ول می‌کنن! اینجاهاست که مهم میشه بتونی یه سری hotword یا همون “کلمه‌ی کلیدی مهم” رو بهش تعریف کنی تا دقیق‌تر و هوشمندتر اون کلمات رو تشخیص بده.

مشکل اینه که وقتی تعداد این کلمات کلیدی زیاد میشه، سیستم‌های موجود واقعاً ضعیف می‌شن و نرخ شناساییشون میاد پایین. مخصوصاً وقتی داری با دنیای بزرگ هوش مصنوعی و مدل‌های بزرگ صوتی مثل Audio LLM سر و کار داری. فقط واسه یادآوری، Audio LLM یعنی همون مدل‌های زبانی بزرگی که با صدا و صوت کار می‌کنن و می‌تونن باهوش‌تر رفتار کنن.

حالا یه تیم باحال یه راه‌حل باحال‌تر معرفی کردن به اسم H-PRM! این اسم عجیب یعنی Hotword Pre-Retrieval Module یا همون ماژول پیش‌بازیابی کلمات کلیدی. چیکار می‌کنه؟ خیلی شیک و مجلسی میاد قبل از اینکه سیستم بخواد چیزی رو رسماً شناسایی کنه، یه بررسی می‌کنه و با مقایسه شباهت صوتی بین حرفی که زده شده و اون لیست کلمات کلیدی، بهترین و مرتبط‌ترین کلمه کلیدی رو پیدا می‌کنه.

مزیت این سیستم اینه که کاملاً plug-and-play هست، یعنی هرجا بخوای خیلی راحت به سیستم‌های قدیمی اضافه‌ش می‌کنی. مثلاً می‌تونی اونو بندازی توی SeACo-Paraformer (که یه مدل معروف تشخیص گفتاره، همین مدلا که آخر اسمشون پَرافرمر داره) تا نرخ بازیابی کلمات کلیدی رو توپ‌تر کنه. فقط این نیست! H-PRM رو حتی می‌تونی با کمک پرامپت (یعنی همون دستورات راهنما که به مدل‌های هوش مصنوعی می‌دیم تا بهتر بفهمن چی می‌خوایم) به مدل‌های Audio LLM هم اضافه کنی و به صورت خودکار، کلمات کلیدی دلخواهتو سفارشی‌سازی کنی. کلاً یه راه یکپارچه و بی‌دردسر واسه سفارشی‌سازی هر جور کلمه خاص.

تست‌های مفصل هم نشون داده که H-PRM خیلی بهتر از چیزاییه که قبلاً بودن. دیگه وقتی لیست کلمات کلیدی‌ات زیاد میشه، لازم نیست نگران این باشی که تشخیصشون خراب بشه. با این روش جدید، می‌تونی همزمان کلی hotword معرفی کنی و هنوزم سیستم دقت بالایی داشته باشه.

خلاصه اگر دنبال روش تر و تمیز و راحت برای کنترل و شخصی سازی کلمات کلیدی توی سیستم‌های تشخیص گفتار می‌گردی، H-PRM احتمالاً همون چیزیه که دنبالش بودی!

منبع: +