LLaVA-GM: یه مدل کوچیک و سبک برای هوش مصنوعی چندحالته!

اگه این روزا پیگیر دنیای هوش مصنوعی باشی، حتما دیدی که مدل‌های زبون خیلی بزرگ و چندحالته (یعنی هم با متن کار می‌کنن، هم با تصویر و چیزای دیگه) کلی سروصدا کردن. مثلاً الان خیلی از این مدل‌ها رو تو کارای مثل توصیف عکس یا جواب دادن به سوالات تصویری (VQA یعنی Visual Question Answering) استفاده می‌کنن. ولی یه مشکل بزرگ وجود داره: این مدل‌ها معمولاً خیلی سنگین و بزرگن و برای اجرا کردنشون به کامپیوتر و منابع قوی نیاز داری؛ که خب برای خیلیا قابل دسترس نیست و حالا حالاها نمی‌تونن ازشون استفاده کنن.

حالا دانشمندا اومدن یه مدل جدید به اسم LLaVA-GM معرفی کردن که حسابی سبک و کم‌حجم درستش کردن! اسمش LLaVA-GM هست که بر پایه LLaVA قبلیه، ولی جوری طراحی شده که حتی روی دستگاه‌های خیلی ضعیف هم اجرا میشه و نیاز به منابع عجیب غریب نداره.

داستان از اینجا شروع شد که متوجه شدن مدل زبانی Vicuna که تو نسخه قبلی LLaVA استفاده شده بود، زیادی بزرگ و حجیمه. وقتی می‌ خوان این مدل رو برای کارای مشخص آموزش بدن، یعنی فاین‌تیونش کنن (یعنی مدل رو با دیتای جدید مخصوص یه کار خاص تقویت کنن)، دیتای کمی که می‌دن تاثیر زیادی رو مدل نداره چون مدل خیلی حجیمه و کلی پارامتر اضافی داره. پس اومدن Vicuna رو گذاشتن کنار و به جاش از یه مدل جمع‌وجورتر و سریع‌تر به اسم Gemma استفاده کردن که کلی پارامتر کمتر داره، اما با همون حجم کوچیکش عالی کار می‌کنه. این باعث شد هم مدل سریع‌تر فاین‌تیون بشه و هم به دیتای کمتری نیاز داشته باشه.

حالا اینجا یه مشکل دیگه وجود اومده: حجم عظیم اطلاعات توی این مدل‌ها باعث میشه کلی داده اضافی یا به قول خودشون “اطلاعات تکراری و زائد” داشته باشن که فقط باعث مصرف منابع میشه ولی کار خاصی انجام نمی‌دن. برای همین یه تکنیک جدید به اسم MoE یا Mixture of Experts اومده وسط. MoE یعنی یه رویکردیه که مدل به جای اینکه همیشه همه اطلاعاتشو به کار بگیره، فقط بخش‌هایی که لازم داره رو فعال می‌کنه. اینطوری هم بازدهی میره بالا، هم حجم پردازش و محاسبات کم میشه.

توی LLaVA-GM، MoE رو با Gemma ترکیب کردن و نتیجه جالب شد؛ یعنی هم مصرف منابع کم شد، هم همچنان مدل می‌تونه کارای چندحالته انجام بده. البته یه نکته مهم وجود داره: اگه همین‌جوری مستقیم کل مدل رو با هم آموزش بدن (train)، کارایی مدل میاد پایین! پس یه روش مرحله‌ای (multi-stage training) استفاده کردن، که اینجوریه:

۱. اول فقط لایه MLP رو آموزش میدن که مربوط به هماهنگ‌سازی مدل با دیتاهای تصویریه.
۲. بعدش کل مدل Gemma رو تقویت می‌کنن تا توانایی چندحالته بودنش بهتر شه.
۳. و در نهایت فقط همون لایه MoE رو روی مدل آموزش میدن تا مدل از حالت چگال (dense) به حالت پراکنده (sparse) بره. یعنی یه گذر نرم و مرتب از مدل‌های قبلی به مدل‌ جدید و سبک بدون افت کارایی.

حالا این مدل جدید رو با دیتاست‌های مختلف VQA تست کردن؛ نتیجه؟ تو کارایی و کیفیت واقعاً عالی ظاهر شده، یعنی با وجود حجم کمترش، باز هم جزو بهترین‌ها تو کار با داده‌های تصویری و زبان بوده.

در کل LLaVA-GM نشون داده که حتی مدل‌های چندحالته با حجم خیلی کم هم می‌تونن انتظارات ما رو برآورده کنن و شاید به زودی روی گوشی یا لپ‌تاپ ضعیف‌مون هم این مدلا اجرا شن! پس اگه دنبال یه مدل سبک و جمع و جور با کارایی بالا و مخصوص کارای ترکیب متن و تصویر می‌گردی، عاشق LLaVA-GM می‌شی!

منبع: +