هوش مصنوعی سخنگو قوی‌تر از همیشه! داستان مدل‌های زبانی صوتی و ترفند جدید برای بهتر شدنشون

Fall Back

داستان مدل‌های زبانی بزرگ یا همون Large Language Models (LLMs)، فکر کنم همه داریم این روزا هر جا میریم درباره‌شون می‌شنویم. این مدل‌های هوش مصنوعی مثل ChatGPT یا مشابه‌هاش، کلی پیشرفت کردن و دیگه فقط با نوشته سروکار ندارن—جدیداً دارن وارد دنیای صدا هم می‌شن! یعنی می‌تونن هم متن رو بفهمن و هم اگر صحبت کنی، بفهمن و جواب بدن. به این مدل‌ها میگن SpeechLMs، یعنی مدل‌های زبانی یهجورایی سخنگو.

اما یه مشکل خیلی مهم وجود داره: وقتی این مدل‌ها قراره به دستورات یا سوالات ما جواب بدن، هنوز یه فاصله‌ای بینشون و مدل‌هایی که فقط روی متن یاد گرفتن، هست. به‌خصوص وقتی با صدای واقعی آدم‌ها (که هزار مدل ممکنه حرف بزنن!) طرف می‌شن، گیج می‌شن یا به خوبی مدل‌های متنی عمل نمی‌کنن.

حالا توی این مقاله، یه راه‌حل خیلی خلاقانه معرفی شده به اسم Reinforced Behavior Alignment یا به اختصار RBA. بذار توضیح بدم چی کار می‌کنه: معمولاً برای بهتر کردن این مدل‌ها میان و کلی داده واقعی جمع می‌کنن و یکی یکی آدم‌ها اونا رو برچسب‌گذاری می‌کنن (یعنی به مدل یاد می‌دن جواب خوب چیه). ولی اینجا یه ترفند متفاوت زدن: به جای اینکه یک عالمه وقت و انرژی برای جمع‌آوری داده مصرف کنن، از یه مدل قوی‌تر (بهش میگن Teacher LLM یعنی معلم مدل بزرگ!) استفاده کردن که خودش داده‌های باکیفیت تولید کنه (مثلاً سوال و جواب مناسب بسازه). این‌رو می‌گن self-synthesis، یعنی مدل خودش تولید داده می‌کنه.

بعدش چیکار می‌کنن؟ میان مدل سخنگوی خودشون رو با استفاده از روشی به اسم یادگیری تقویتی یا همون reinforcement learning (که یه مدل یادگیری ماشینه که خودش سعی می‌کنه به جواب‌های بهتر پاداش بده و با آزمون و خطا یاد بگیره) وادار می‌کنن که شبیه معلمش جواب بده. یعنی بجای داده انسانی، مدل معلم خودش الگو و معیار می‌شه.

نتیجه چی شده؟ توی آزمایش‌ها نشون دادن که این روش باعث می‌شه مدل‌های زبانی سخنگو (SpeechLMs) توی دنبال کردن دستورها و جواب دادن به سوالاتِ صوتی خیلی بهتر عمل کنن، حتی بهتر از اون شیوه مرسوم که میگفتن Distillation (کپی‌برداری از مدل قوی رو با داده واقعی انسانی). یعنی الان مدل‌های صوتی نه تنها عقب نمی‌مونن، بلکه زدن جلو!

جالب‌تر اینکه این رویکرد RBA رو فقط برای جواب دادن به سوال‌ها اجرا نکردن؛ برای کارهای دیگه مثل تبدیل گفتار به متن (Speech-to-Text) و حتی جواب دادن به سوالاتی که با صدا پرسیده می‌شن (Spoken Question Answering) هم امتحانش کردن و تونستن با همین داده‌های خودساخته، بهترین نتیجه‌ها رو تو تست‌های عمومی (یعنی همون بنچمارک‌ها) بگیرن.

خلاصه اینکه اگر دنبال هوش مصنوعی‌ای می‌گردین که هم بشه باهاش حرف زد و هم خوب جواب بده، این روش RBA کلی به پیشرفتشون کمک کرده. فکر کنم به زودی مدل‌هایی می‌بینیم که نه فقط می‌نویسن، بلکه می‌شنون و با ما حرف می‌زنن، دقیقاً همونجوری که دوست داریم!

منبع: +