کِیم: معماری دوگانه‌ای که هوش مکالمه‌ای رو قوی‌تر و باحال‌تر می‌کنه!

بذارید داستان رو رفیقانه و ساده براتون توضیح بدم! تا حالا شده با یه دستیار صوتی حرف بزنی و حس کنی خیلی سریع جواب می‌ده، ولی جواباش یکم سطحیه و انگار زیاد نمی‌فهمه چی می‌خوای؟ خب، این دقیقاً مشکل مدل‌های گفتار به گفتار (حالا S2S می‌گن بهش که یعنی Speech-to-Speech – یعنی مدلی که حرفت رو صوتی می‌فهمه و جوابش رو هم صوتی می‌ده) هست. این مدل‌ها جوابت رو با تاخیر کم و خیلی طبیعی می‌دن، اما معمولاً سواد و درک عمیق ندارن.

از اون طرف یه سری سیستمای دیگه هستن که کارشون اینه: اول صداتو به متن تبدیل می‌کنن (این کارو با Automatic Speech Recognition انجام می‌دن، یعنی همون تبدیل گفتار به متن)، بعد جواب رو با یه مدل زبانی خیلی پیشرفته و بزرگ (بهش می‌گن Large Language Model یا LLM، مثل GPT و اینا – مدلایی که می‌تونن متن خیلی قوی و پرمغز بسازن) تولید می‌کنن و در آخر هم جواب رو دوباره صوتی می‌کنن (Text-to-Speech). اینجوری جواب‌ها خیلی درست و خفن می‌شن اما خب، همه‌ این کارا زمان می‌بره، و وقتی مکالمه داری حس می‌کنی حرف زدنت قطع می‌شه و طبیعی نیست.

حالا محققای این مقاله اومدن و یه راه‌حل وسط و جذاب پیدا کردن! اسم کارشون رو گذاشتن KAME (آره، یه جور معماری هیبریدی یا همون ترکیبی). این مدل دو کار همزمان انجام می‌ده: ۱. همون لحظه که حرف می‌زنی، یه مدل S2S با سرعت و باحال جواب می‌ده که مکالمه طبیعی بمونه. ۲. همزمان سوالت (یا حرفت) رو می‌فرسته برای یه مدل زبانی خیلی قوی در بک‌اند تا یه جواب متنی حسابی بده. بعد اون جواب متنی رو در لحظه به مدل S2S می‌فرسته که تولید صدای جواب رو با دانش و سواد بیشتر انجام بده!

یعنی یه جورایی، داری با یه هم‌تیمی دونده و عمیق کار می‌کنی: یکی سریعه و اون یکی باهوش و دلسوز! این طوری نه سرعتت میاد پایین، نه سطح دانش جوابا فدا می‌شه.

برای اینکه نشون بدن روش‌شون واقعاً جواب می‌ده، یه تست سخت براش گذاشتن. از یه دیتاست به اسم MT-Bench کمک گرفتن (این مجموعه تستیه که سوال و جواب تو چند مرحله و چرخشی بین کاربر و هوش مصنوعی رو می‌سنجه). توی این تست، صداهایی که نیاز بود رو ساختن (یعنی داده رو صوتی سینتی‌سایز کردن که واقعاً مکالمه باشه)، بعد مدلشون رو امتحان کردن.

نتیجه‌ها چی شد؟ مدل KAME به راحتی مدل S2S قدیمی رو شکست داد از لحاظ اینکه جواب‌ها چقدر دقیق و درست بودن – حتی تقریباً به همون خوبی مدلای مرحله به مرحله (cascaded systems، یعنی همون مدلای کندتر و پر دنگ و فنگ‌تر) شد، ولی زمان پاسخ‌دهیش همون سریعیه مدل S2S موند!

خلاصه اگر دوست داری هم با دستیار صوتیت راحت و طبیعی حرف بزنی و هم جواب‌های عمیق و با سواد بگیری، معماری KAME نوید همین آینده رو می‌ده. دیگه لازم نیست بین “سرعت” و “دانش” یکی رو بزاری کنار! خیلی باحاله، نه؟

منبع: +