تو این روزا همه جا صحبت از هوش مصنوعی و مدلهای زبانی بزرگه. این مدلهایی که بهشون میگن Large Language Models یا به اختصار LLMs، یعنی همون هوش مصنوعیهایی که میتونن متن تولید کنن، جواب بدن و حتی کلی چیز یاد بگیرن. مثلاً چتباتها یا همون رباتهایی که باهات حرف میزنن، خیلی هاشون از همین مدلهای زبانی بزرگ درست شدن.
ولی قضیه اینه که ساختن یـک مدل زبانی خیلی قوی که هم نتیجههای خوبی بده و هم منابع زیادی نخواد واقعاً سخته، مخصوصاً واسه تیمهای تحقیقاتی کوچیکتر یا کشورهایی که منابع محدودتری دارن. تازه، مدلهای بزرگی مثل GPT-4 یا مشابههاش معمولاً توسط چند تا شرکت غول مثل OpenAI یا Google ساخته میشن. حالا یکی از مدلهایی که قراره بازی رو تغییر بده و به دسترستر شدن این تکنولوژی کمک کنه اسمش هست Motif-2.6B.
Motif-2.6B چیه؟ خب خیلی ساده بگم: یک مدل مبتنی بر هوش مصنوعی با ۲/۶ میلیارد پارامتره (پارامتر یعنی همون تنظیماتی که مغز مدل رو میسازن و هر چی بیشتر باشه، قدرت مدل بیشتر میشه). تیم سازنده این مدل گفتن که هدفشون این بوده که آدمای بیشتری بتونن به مدلهای قدرتمند دسترسی داشته باشن و لازم نباشه سختافزار عجیبغریب یا میلیونها دلار هزینه کنن تا یه مدل هوش مصنوعی داشته باشن.
حالا چیزی که Motif-2.6B رو خاص میکنه، معماری جالبشه. این مدل چند تا ویژگی خلاقانه داره:
• Differential Attention: این یکی روش تازه واسه تمرکز مدل روی بخشهای مختلف متنه. معمولاً مدلها وقتی متن طولانی باشه گیج میشن و نمیتونن خوب کل متن رو بفهمن. با این تکنیک مدل میتونه راحتتر اطلاعات مهم رو پیدا کنه و بهتر جواب بده. (توضیح: Attention همون فناورییه که مدل تصمیم میگیره به کدوم بخش از متن بیشتر دقت کنه.)
• PolyNorm activation functions: این یکی هم یه نوع جدید از تابع فعالسازیه (activation function یعنی فرمولی که مدل تصمیم میگیره نورونهاش رو چطور فعال کنه تا بهتر بفهمه). این عملکرد باعث میشه مدل کمتر اشتباهات عجیب و غریب کنه یا به اصطلاح حرفهایها، «hallucination» نداشته باشه. (hallucination تو مدلهای زبانی یعنی وقتی مدل جواب غیرواقعی یا پرت و پلا میده.)
این تیم حسابی وقت گذاشته و کلی آزمایش انجام داده تا کدوم معماری بهترین کارایی رو داره و قراره بیشترین تاثیر رو داشته باشه. نکته جالب اینجاست که Motif-2.6B تونسته توی ارزیابیهای مختلف ــ بهش میگن benchmark، یعنی مقایسه عملکرد مدلها روی یه سری تست معروف ــ همسطح یا حتی بهتر از مدلهای هماندازه خودش ظاهر بشه! یعنی با اینکه موضوعش نسبتاً کوچیکتره، خیلی قوی و باهوشه.
نتیجه همه این تلاشها و بهینهسازیها این شده که حالا Motif-2.6B یه مدل پایهای خیلی کاربردی و کارآمده که میتونه برای تحقیقات بعدی، ایدههای جدید یا حتی استفاده واقعی تو خیلی اپلیکیشنها به کار بره. خلاصه این مدل نشون داره که میشه مدلهای زبانی قوی و کارآمد رو توسعه داد بدون اینکه خرج و هزینه عجیب داشته باشن یا فقط محدود به شرکتهای بزرگ باشن.
در کل، Motif-2.6B نشون داده با معماری درست و تکنیکهای نوآورانه میشه دنیای هوش مصنوعی رو بازتر و دموکراتیکتر (یعنی همه بتونن استفاده کنن، نه فقط یه عده خاص!) کرد. این مدل یه قدم جدیه برای این که هوش مصنوعی به شکل دموکراتیک و دسترسپذیرتری پیش بره.
منبع: +