اگه این روزا پیگیر دنیای هوش مصنوعی باشی، حتما دیدی که مدلهای زبون خیلی بزرگ و چندحالته (یعنی هم با متن کار میکنن، هم با تصویر و چیزای دیگه) کلی سروصدا کردن. مثلاً الان خیلی از این مدلها رو تو کارای مثل توصیف عکس یا جواب دادن به سوالات تصویری (VQA یعنی Visual Question Answering) استفاده میکنن. ولی یه مشکل بزرگ وجود داره: این مدلها معمولاً خیلی سنگین و بزرگن و برای اجرا کردنشون به کامپیوتر و منابع قوی نیاز داری؛ که خب برای خیلیا قابل دسترس نیست و حالا حالاها نمیتونن ازشون استفاده کنن.
حالا دانشمندا اومدن یه مدل جدید به اسم LLaVA-GM معرفی کردن که حسابی سبک و کمحجم درستش کردن! اسمش LLaVA-GM هست که بر پایه LLaVA قبلیه، ولی جوری طراحی شده که حتی روی دستگاههای خیلی ضعیف هم اجرا میشه و نیاز به منابع عجیب غریب نداره.
داستان از اینجا شروع شد که متوجه شدن مدل زبانی Vicuna که تو نسخه قبلی LLaVA استفاده شده بود، زیادی بزرگ و حجیمه. وقتی می خوان این مدل رو برای کارای مشخص آموزش بدن، یعنی فاینتیونش کنن (یعنی مدل رو با دیتای جدید مخصوص یه کار خاص تقویت کنن)، دیتای کمی که میدن تاثیر زیادی رو مدل نداره چون مدل خیلی حجیمه و کلی پارامتر اضافی داره. پس اومدن Vicuna رو گذاشتن کنار و به جاش از یه مدل جمعوجورتر و سریعتر به اسم Gemma استفاده کردن که کلی پارامتر کمتر داره، اما با همون حجم کوچیکش عالی کار میکنه. این باعث شد هم مدل سریعتر فاینتیون بشه و هم به دیتای کمتری نیاز داشته باشه.
حالا اینجا یه مشکل دیگه وجود اومده: حجم عظیم اطلاعات توی این مدلها باعث میشه کلی داده اضافی یا به قول خودشون “اطلاعات تکراری و زائد” داشته باشن که فقط باعث مصرف منابع میشه ولی کار خاصی انجام نمیدن. برای همین یه تکنیک جدید به اسم MoE یا Mixture of Experts اومده وسط. MoE یعنی یه رویکردیه که مدل به جای اینکه همیشه همه اطلاعاتشو به کار بگیره، فقط بخشهایی که لازم داره رو فعال میکنه. اینطوری هم بازدهی میره بالا، هم حجم پردازش و محاسبات کم میشه.
توی LLaVA-GM، MoE رو با Gemma ترکیب کردن و نتیجه جالب شد؛ یعنی هم مصرف منابع کم شد، هم همچنان مدل میتونه کارای چندحالته انجام بده. البته یه نکته مهم وجود داره: اگه همینجوری مستقیم کل مدل رو با هم آموزش بدن (train)، کارایی مدل میاد پایین! پس یه روش مرحلهای (multi-stage training) استفاده کردن، که اینجوریه:
۱. اول فقط لایه MLP رو آموزش میدن که مربوط به هماهنگسازی مدل با دیتاهای تصویریه.
۲. بعدش کل مدل Gemma رو تقویت میکنن تا توانایی چندحالته بودنش بهتر شه.
۳. و در نهایت فقط همون لایه MoE رو روی مدل آموزش میدن تا مدل از حالت چگال (dense) به حالت پراکنده (sparse) بره. یعنی یه گذر نرم و مرتب از مدلهای قبلی به مدل جدید و سبک بدون افت کارایی.
حالا این مدل جدید رو با دیتاستهای مختلف VQA تست کردن؛ نتیجه؟ تو کارایی و کیفیت واقعاً عالی ظاهر شده، یعنی با وجود حجم کمترش، باز هم جزو بهترینها تو کار با دادههای تصویری و زبان بوده.
در کل LLaVA-GM نشون داده که حتی مدلهای چندحالته با حجم خیلی کم هم میتونن انتظارات ما رو برآورده کنن و شاید به زودی روی گوشی یا لپتاپ ضعیفمون هم این مدلا اجرا شن! پس اگه دنبال یه مدل سبک و جمع و جور با کارایی بالا و مخصوص کارای ترکیب متن و تصویر میگردی، عاشق LLaVA-GM میشی!
منبع: +