بذارید داستان رو رفیقانه و ساده براتون توضیح بدم! تا حالا شده با یه دستیار صوتی حرف بزنی و حس کنی خیلی سریع جواب میده، ولی جواباش یکم سطحیه و انگار زیاد نمیفهمه چی میخوای؟ خب، این دقیقاً مشکل مدلهای گفتار به گفتار (حالا S2S میگن بهش که یعنی Speech-to-Speech – یعنی مدلی که حرفت رو صوتی میفهمه و جوابش رو هم صوتی میده) هست. این مدلها جوابت رو با تاخیر کم و خیلی طبیعی میدن، اما معمولاً سواد و درک عمیق ندارن.
از اون طرف یه سری سیستمای دیگه هستن که کارشون اینه: اول صداتو به متن تبدیل میکنن (این کارو با Automatic Speech Recognition انجام میدن، یعنی همون تبدیل گفتار به متن)، بعد جواب رو با یه مدل زبانی خیلی پیشرفته و بزرگ (بهش میگن Large Language Model یا LLM، مثل GPT و اینا – مدلایی که میتونن متن خیلی قوی و پرمغز بسازن) تولید میکنن و در آخر هم جواب رو دوباره صوتی میکنن (Text-to-Speech). اینجوری جوابها خیلی درست و خفن میشن اما خب، همه این کارا زمان میبره، و وقتی مکالمه داری حس میکنی حرف زدنت قطع میشه و طبیعی نیست.
حالا محققای این مقاله اومدن و یه راهحل وسط و جذاب پیدا کردن! اسم کارشون رو گذاشتن KAME (آره، یه جور معماری هیبریدی یا همون ترکیبی). این مدل دو کار همزمان انجام میده: ۱. همون لحظه که حرف میزنی، یه مدل S2S با سرعت و باحال جواب میده که مکالمه طبیعی بمونه. ۲. همزمان سوالت (یا حرفت) رو میفرسته برای یه مدل زبانی خیلی قوی در بکاند تا یه جواب متنی حسابی بده. بعد اون جواب متنی رو در لحظه به مدل S2S میفرسته که تولید صدای جواب رو با دانش و سواد بیشتر انجام بده!
یعنی یه جورایی، داری با یه همتیمی دونده و عمیق کار میکنی: یکی سریعه و اون یکی باهوش و دلسوز! این طوری نه سرعتت میاد پایین، نه سطح دانش جوابا فدا میشه.
برای اینکه نشون بدن روششون واقعاً جواب میده، یه تست سخت براش گذاشتن. از یه دیتاست به اسم MT-Bench کمک گرفتن (این مجموعه تستیه که سوال و جواب تو چند مرحله و چرخشی بین کاربر و هوش مصنوعی رو میسنجه). توی این تست، صداهایی که نیاز بود رو ساختن (یعنی داده رو صوتی سینتیسایز کردن که واقعاً مکالمه باشه)، بعد مدلشون رو امتحان کردن.
نتیجهها چی شد؟ مدل KAME به راحتی مدل S2S قدیمی رو شکست داد از لحاظ اینکه جوابها چقدر دقیق و درست بودن – حتی تقریباً به همون خوبی مدلای مرحله به مرحله (cascaded systems، یعنی همون مدلای کندتر و پر دنگ و فنگتر) شد، ولی زمان پاسخدهیش همون سریعیه مدل S2S موند!
خلاصه اگر دوست داری هم با دستیار صوتیت راحت و طبیعی حرف بزنی و هم جوابهای عمیق و با سواد بگیری، معماری KAME نوید همین آینده رو میده. دیگه لازم نیست بین “سرعت” و “دانش” یکی رو بزاری کنار! خیلی باحاله، نه؟
منبع: +