داستان مدلهای زبانی بزرگ یا همون Large Language Models (LLMs)، فکر کنم همه داریم این روزا هر جا میریم دربارهشون میشنویم. این مدلهای هوش مصنوعی مثل ChatGPT یا مشابههاش، کلی پیشرفت کردن و دیگه فقط با نوشته سروکار ندارن—جدیداً دارن وارد دنیای صدا هم میشن! یعنی میتونن هم متن رو بفهمن و هم اگر صحبت کنی، بفهمن و جواب بدن. به این مدلها میگن SpeechLMs، یعنی مدلهای زبانی یهجورایی سخنگو.
اما یه مشکل خیلی مهم وجود داره: وقتی این مدلها قراره به دستورات یا سوالات ما جواب بدن، هنوز یه فاصلهای بینشون و مدلهایی که فقط روی متن یاد گرفتن، هست. بهخصوص وقتی با صدای واقعی آدمها (که هزار مدل ممکنه حرف بزنن!) طرف میشن، گیج میشن یا به خوبی مدلهای متنی عمل نمیکنن.
حالا توی این مقاله، یه راهحل خیلی خلاقانه معرفی شده به اسم Reinforced Behavior Alignment یا به اختصار RBA. بذار توضیح بدم چی کار میکنه: معمولاً برای بهتر کردن این مدلها میان و کلی داده واقعی جمع میکنن و یکی یکی آدمها اونا رو برچسبگذاری میکنن (یعنی به مدل یاد میدن جواب خوب چیه). ولی اینجا یه ترفند متفاوت زدن: به جای اینکه یک عالمه وقت و انرژی برای جمعآوری داده مصرف کنن، از یه مدل قویتر (بهش میگن Teacher LLM یعنی معلم مدل بزرگ!) استفاده کردن که خودش دادههای باکیفیت تولید کنه (مثلاً سوال و جواب مناسب بسازه). اینرو میگن self-synthesis، یعنی مدل خودش تولید داده میکنه.
بعدش چیکار میکنن؟ میان مدل سخنگوی خودشون رو با استفاده از روشی به اسم یادگیری تقویتی یا همون reinforcement learning (که یه مدل یادگیری ماشینه که خودش سعی میکنه به جوابهای بهتر پاداش بده و با آزمون و خطا یاد بگیره) وادار میکنن که شبیه معلمش جواب بده. یعنی بجای داده انسانی، مدل معلم خودش الگو و معیار میشه.
نتیجه چی شده؟ توی آزمایشها نشون دادن که این روش باعث میشه مدلهای زبانی سخنگو (SpeechLMs) توی دنبال کردن دستورها و جواب دادن به سوالاتِ صوتی خیلی بهتر عمل کنن، حتی بهتر از اون شیوه مرسوم که میگفتن Distillation (کپیبرداری از مدل قوی رو با داده واقعی انسانی). یعنی الان مدلهای صوتی نه تنها عقب نمیمونن، بلکه زدن جلو!
جالبتر اینکه این رویکرد RBA رو فقط برای جواب دادن به سوالها اجرا نکردن؛ برای کارهای دیگه مثل تبدیل گفتار به متن (Speech-to-Text) و حتی جواب دادن به سوالاتی که با صدا پرسیده میشن (Spoken Question Answering) هم امتحانش کردن و تونستن با همین دادههای خودساخته، بهترین نتیجهها رو تو تستهای عمومی (یعنی همون بنچمارکها) بگیرن.
خلاصه اینکه اگر دنبال هوش مصنوعیای میگردین که هم بشه باهاش حرف زد و هم خوب جواب بده، این روش RBA کلی به پیشرفتشون کمک کرده. فکر کنم به زودی مدلهایی میبینیم که نه فقط مینویسن، بلکه میشنون و با ما حرف میزنن، دقیقاً همونجوری که دوست داریم!
منبع: +