کوچیک و قوی: چطور دستگاه‌های باتری‌خور می‌تونن مدل‌های هوش مصنوعی چندحالته رو راحت اجرا کنن!

Fall Back

تا حالا فکر کردی چطور میشه مدل‌های خیلی بزرگ هوش مصنوعی رو، مخصوصاً اونایی که هم متن، هم تصویر و حتی صدا رو باهم می‌شناسن (به اینا میگن مدل‌های چندحالته یا Multimodal Models)، روی یه دستگاه کوچیک که فقط با باتری کار می‌کنه اجرا کرد؟ خب، معمولاً این مدل‌ها خودشون از چند بخش مختلف ساخته شدن؛ مثل بخش پردازش تصویر، بخش پردازش صدا، یه بخشی برای زبان و غیره. اما مشکل اینجاست که اکثر اوقات همه این بخش‌ها باهم و یکجا اجرا میشن که باعث میشه کلی منابع مصرف بشه و کُندی به وجود بیاد.

اینجاست که یه ایده خیلی باحال و نو به اسم “NANOMIND” مطرح میشه! اینا اومدن گفتن: چرا باید همه چی باهم و روی یه هسته اجرا بشه وقتی هر بخش مدل می‌تونه روی شتاب‌دهنده مخصوص خودش اجرا بشه؟ حالا شاید بگی شتاب‌دهنده چی هست اصلاً؟ شتاب‌دهنده (مثل NPU، GPU یا DSP) یعنی بخش‌هایی توی دستگاه شما که برای یه نوع خاص از محاسبات سریع‌تر و بهینه‌تر کار می‌کنن.

NANOMIND یه چارچوب (Framework) جالب معرفی کرده که مدل‌های بزرگ و چندحالته رو به قطعات کوچکتر به اسم “آجر” (Bricks) تقسیم می‌کنه، و هر آجر رو میفرسته سراغ اون شتاب‌دهنده‌ای که بهترین کار رو براش انجام میده. مثلاً بخش تصویر روی یه قسمت اجرا میشه، بخش زبان روی یه قسمت دیگه، یا حتی بخش صدا روی یه سخت‌افزار جدا.

و حالا قسمت هیجان‌انگیزش: این سیستم جوری طراحی شده که همه این کارها رو روی یه وسیله کوچیک، کم‌مصرف و کاملاً مستقل از اینترنت انجام بده! یعنی مثلاً فکر کن یه دستیار هوشمند داری که بدون اینکه نیاز داشته باشه به اینترنت وصل بشه می‌تونه واقعاً هوشمند باشه و هر کاری بکنی رو بفهمه و جواب بده.

یکی از چیزهای باحال این سیستم اینه که با روش اختصاصی برای مدیریت حافظه، دیگه اون مشکل گلوگاه CPU رو (یعنی کند شدن به خاطر شلوغ شدن سی‌پی‌یو) برطرف می‌کنه و حتی از هدر رفتن حافظه هم جلوگیری می‌کنه. یعنی اگه قبلاً یه تیکه مدل اضافه داخل حافظه می‌موند و استفاده نمیشد، الان اینجا دیگه اون اتفاق نمی‌افته چون سیستم خودش هوشمند مدیریت می‌کنه.

حالا نتایج رقم زده شده واقعاً قابل توجهه: دستگاهی که با این NANOMIND کار می‌کنه، نسبت به بقیه روش‌ها ۴۲.۳ درصد کمتر انرژی مصرف می‌کنه و ۱۱.۲ درصد هم حافظه GPU رو کاهش میده. یعنی چی؟ یعنی مثلاً می‌تونی مدل‌هایی مثل LLaVA-OneVision رو که مخصوص دیدن و تحلیل تصویر با دوربین هست تقریباً نصف روز کامل با یه دور شارژ استفاده کنی، یا مدل LLaMA-3-8B برای گفتگوهای صوتی رو تا نزدیک بیست ساعت و نیم بی‌وقفه داشته باشی بدون اینکه نیاز به اینترنت داشته باشی.

در نتیجه، اگه دوست داری یه روزی مدل‌های خیلی پیشرفته هوش مصنوعی رو تو جیب‌ت بزاری و همه کارها رو خودکار و هوشمند انجام بدی، این قبیل سیستم‌ها قطعاً آینده رو می‌سازن. به زبون ساده: مدل‌های بزرگ دیگه قرار نیست فقط توی سرورای عظیم دیتاسنترها اجرا بشن، بلکه با ترکیب نرم‌افزار و سخت‌افزار با این روش هوشمندانه، حتی رو دستگاه‌های کوچیک خونگی هم از پس‌شون برمیایم!

منبع: +