پیش‌تمرین خفن با داده‌های ساختگی: نسل جدید مدل‌های زبانی

بذارین امروز یه موضوع خیلی خفن براتون توضیح بدم که تازه از دنیای هوش مصنوعی سر درآورده: «Synthetic Bootstrapped Pretraining» یا به اختصار SBP. خب حالا SBP یعنی چی؟ بذارین ساده بگم: این یه روش جدیده برای آموزش مدل‌های زبانی که از داده‌های ساختگی به شکلی کاملاً هوشمند استفاده می‌کنه.

تا الان مدل‌های زبانی بزرگ (همونا که مثلاً ChatGPT یه نمونه‌شونه) با روش «پیش‌تمرین» یا Pretraining آموزش داده میشدن. تو این روش، مدل کلی دیتاست واقعی رو می‌خونه و سعی می‌کنه یاد بگیره ترتیب و همبستگی کلمات تو یه سند چطور پیش میره؛ یعنی فقط روابط علت و معلولی کلمات تو همون متن رو درک می‌کرد. اما یه ایراد بزرگ داره: نمی‌تونه راحت بفهمه رابطه بین چندتا سند مختلف چیه یا چه مفهومی مشترکی بین اونا هست. خب خیلی حیفه، نه؟

اینجاست که SBP وارد میشه؛ این روش اومده این خلأ رو پر کنه. تو SBP، اول مدل میاد و سعی می‌کنه رابطه‌ها بین چند تا سند مختلف رو از دیتای پیش‌تمرین کشف کنه. حالا چرا این مهمه؟ چون اغلب یه عالمه نکته و مفهوم پنهون بین سندها وجود داره که اگه مدل اونارو بفهمه، عملکردش خیلی بهتر میشه.

حالا چیز باحال‌تر: این مدل، وقتی این روابط رو یاد گرفت، خودش دست به کار میشه و یه عالمه متن جدید و ساختگی درست می‌کنه! یعنی مثل یه آدم خلاق، میاد از دیتاهای قبلی یه الهام می‌گیره، اون مفاهیم پایه رو انتزاع (یعنی از توی کلی جزئیاتشون درمیاره و کلی‌ترشون می‌کنه) می‌کنه، و یه متن جدید با همون مضمون اصلی ولی با ساختار و بیان متفاوت می‌سازه. دیگه این شبیه paraphrase معمولی یا بازگویی ساده نیست—واقعاً یه متن جدید حول اون ایده مرکزی تولید می‌کنه.

بعد این متنای ساختگی رو هم میریزن تو روند آموزش مدل، در کنارش دیتای اصلی هم هست. اینجوری مدل کلی چیزای بیشتر و عمیق‌تری یاد می‌گیره و روی داده‌های اتفاقی یا کم‌یاب گیر نمی‌کنه.

تو این تحقیق، اومدن و روی یه مدل با ۳ میلیارد پارامتر (پارامتر یعنی اون بخشای قابل یادگیری مدل، هر چی بیشتر باشه مدل توانمندتره)، با ۱ تریلیون توکن از اول تمرین کردن. نتیجه چی شد؟ SBP تونست نسبت به یه مدل قوی که فقط داده‌های تکراری رو خوب حفظ می‌کنه، پیشرفت چشمگیری نشون بده. تازه بخش قابل توجهی از پیشرفتی که با ۲۰ برابر داده منحصربه‌فرد ممکن بود، فقط با همین روش SBP به دست اومد! خیلی خفن نیست؟

یه نکته جذاب دیگه هم این وسط هست: SBP رو میشه با مفاهیم Bayesian توضیح داد—یعنی مدل مثل یه استدلال‌گر آماری هوشمند، تو دل خودش کم‌کم یاد می‌گیره ببینه کدوم مفاهیم بین سندها مشترکن و اونا رو مجرد کنه.

خلاصه که این روش SBP هم کارایی مدل‌های زبانی رو زیادتر می‌کنه و هم باعث میشه مدل‌ها واقعاً عمیق‌تر مفاهیم رو درک کنن؛ تازه محدودیت داده رو هم به‌طور هوشمند دور میزنه. شاید به‌زودی بیشتر از این شیوه توی مدل‌های هوش مصنوعی معروف بشنویم!

منبع: +