ببین رفیق، اگه مدلهای ترنسفورمر و هوش مصنوعی برات جذاب باشه، احتمالاً اسم Rotary Positional Embedding یا همون RoPE به گوشت خورده. این یه تکنیک معروف تو مدلهای ترنسفورمره که کمک میکنه مدلها بفهمن ترتیب کلمهها (یا حتی کاراکترها) تو جمله چیه. حالا این RoPE یه عدد جادویی داره به اسم تتا (θ). تتا یه پارامتریه که میتونه رو نحوه کار این تکنیک حسابی تاثیر بذاره.
معمولاً اکثر مدلها از یه مقدار پیشفرض برای تتا استفاده میکنن (مثلاً ۱۰٬۰۰۰) اما کسی دقیق نمیدونه اگه این عدد رو تغییر بدیم دقیقاً چه اتفاقی میوفته مخصوصاً تو مدلهایی که با کاراکترها کار میکنن، نه کلمات (به اینا میگن character-level model یعنی مدل سطح کاراکتر، یعنی به جای کار با واژه، مستقیم سراغ تکتک حروف یا کاراکترها میره). حالا داستان از اینجا جالب میشه!
یه تحقیق باحال اومده گفته بذاریم این تتا رو از ۵۰۰ تا ۵۰٬۰۰۰ هی تغییر بدیم و ببینیم چی پیش میاد. مدل تستیشون هم از نوع GPT کاراکتری بوده (یعنی مثل مدل معروف ChatGPT، ولی بجای واژه، کارش رو روی تکتک حروف امتحان کرده). واسه آزمایش هم از سه دیتاست معروف استفاده کردن:
- Tiny Shakespeare (یه مجموعهی کوچیک از نمایشنامههای شکسپیر)
- Enwik8 (یه حجم نسبتاً زیاد از ویکیپدیاست)
- Text8 (بخشی از متون انگلیسی Wikipedia)
خلاصه کار این بوده که مقدار تتا رو تغییر دادن و با حالت پیشفرض (۱۰٬۰۰۰) مقایسه کردن تا ببینن دقیقاً چه فرقی میکنه.
ولی یه چیز جالب این بود که هر موقع تتا رو به غیر از مقدار پیشفرض تنظیم میکردن، سرعت اجرای مدل تقریباً نصف میشد! یعنی مدل خیلی دیرتر جواب میداد (به این میگن computational overhead یعنی هزینه پردازشی اضافه که اجرا رو کند میکنه). نکته جالبتر این که این کند شدن نه به خاطر خود تتا، بلکه احتمالاً بخاطر نحوه پیادهسازی این تکنیک تو کد بوده؛ با تغییر نرمافزار یا بهینهسازی شاید بشه حلش کرد.
اما خب، این ماجرا فقط مربوط به سرعت نبوده. کار اصلی این تحقیق این بود که دنبال یه تعادل بین عملکرد مدل (یعنی چقدر خوب یاد میگیره و جواب درست میده) و زمان اجرا بگرده، چون گاهی با انتخاب یه تتای خاص میشه عملکرد مدل رو بهتر کرد اما هزینه سرعت رو باید قبول کنی.
نتیجه مهمی که گرفتن این بود که “بهینهترین” مقدار تتا برای هر دیتاست ممکنه فرق کنه! یعنی قشنگ باید برای هر نوع داده جدا جدا تتا رو بهینه کنی که به نتیجهی خوب و سریع برسی. خلاصه اینکه محققها پیشنهاد کردن که شاید آینده باید دنبال رویکردهای تطبیقی (adaptive scheduling) برای تعیین تتا باشیم یا اصلاً هر دیتاست تتای مخصوص به خودش رو داشته باشه تا هم عملکرد مدل بالا بره، هم سرعت فدای نتیجه نشه.
در کل اگر دنبال ساخت مدل زبانی باحال و سریع هستی و به RoPE علاقه داری، باید حواست به این عدد تتا باشه و کوتاه نیای! شاید با یه تنظیم ساده، مدل هم سریعتر بشه هم بهتر جواب بده. پس دفعه بعد که سراغ Positional Encoding (یعنی مشخص کردن جای هر عنصر تو جمله برای مدل) رفتی، حتماً تتا رو جدی بگیر. رو هم رفته این تحقیق کلی کمک میکنه که بفهمیم چطور میشه مدلهای قویتر و سریعتری ساخت، فقط کافیه کمی با اعداد بازی کنیم!
منبع: +