تا حالا فکر کردی چطور میشه مدلهای خیلی بزرگ هوش مصنوعی رو، مخصوصاً اونایی که هم متن، هم تصویر و حتی صدا رو باهم میشناسن (به اینا میگن مدلهای چندحالته یا Multimodal Models)، روی یه دستگاه کوچیک که فقط با باتری کار میکنه اجرا کرد؟ خب، معمولاً این مدلها خودشون از چند بخش مختلف ساخته شدن؛ مثل بخش پردازش تصویر، بخش پردازش صدا، یه بخشی برای زبان و غیره. اما مشکل اینجاست که اکثر اوقات همه این بخشها باهم و یکجا اجرا میشن که باعث میشه کلی منابع مصرف بشه و کُندی به وجود بیاد.
اینجاست که یه ایده خیلی باحال و نو به اسم “NANOMIND” مطرح میشه! اینا اومدن گفتن: چرا باید همه چی باهم و روی یه هسته اجرا بشه وقتی هر بخش مدل میتونه روی شتابدهنده مخصوص خودش اجرا بشه؟ حالا شاید بگی شتابدهنده چی هست اصلاً؟ شتابدهنده (مثل NPU، GPU یا DSP) یعنی بخشهایی توی دستگاه شما که برای یه نوع خاص از محاسبات سریعتر و بهینهتر کار میکنن.
NANOMIND یه چارچوب (Framework) جالب معرفی کرده که مدلهای بزرگ و چندحالته رو به قطعات کوچکتر به اسم “آجر” (Bricks) تقسیم میکنه، و هر آجر رو میفرسته سراغ اون شتابدهندهای که بهترین کار رو براش انجام میده. مثلاً بخش تصویر روی یه قسمت اجرا میشه، بخش زبان روی یه قسمت دیگه، یا حتی بخش صدا روی یه سختافزار جدا.
و حالا قسمت هیجانانگیزش: این سیستم جوری طراحی شده که همه این کارها رو روی یه وسیله کوچیک، کممصرف و کاملاً مستقل از اینترنت انجام بده! یعنی مثلاً فکر کن یه دستیار هوشمند داری که بدون اینکه نیاز داشته باشه به اینترنت وصل بشه میتونه واقعاً هوشمند باشه و هر کاری بکنی رو بفهمه و جواب بده.
یکی از چیزهای باحال این سیستم اینه که با روش اختصاصی برای مدیریت حافظه، دیگه اون مشکل گلوگاه CPU رو (یعنی کند شدن به خاطر شلوغ شدن سیپییو) برطرف میکنه و حتی از هدر رفتن حافظه هم جلوگیری میکنه. یعنی اگه قبلاً یه تیکه مدل اضافه داخل حافظه میموند و استفاده نمیشد، الان اینجا دیگه اون اتفاق نمیافته چون سیستم خودش هوشمند مدیریت میکنه.
حالا نتایج رقم زده شده واقعاً قابل توجهه: دستگاهی که با این NANOMIND کار میکنه، نسبت به بقیه روشها ۴۲.۳ درصد کمتر انرژی مصرف میکنه و ۱۱.۲ درصد هم حافظه GPU رو کاهش میده. یعنی چی؟ یعنی مثلاً میتونی مدلهایی مثل LLaVA-OneVision رو که مخصوص دیدن و تحلیل تصویر با دوربین هست تقریباً نصف روز کامل با یه دور شارژ استفاده کنی، یا مدل LLaMA-3-8B برای گفتگوهای صوتی رو تا نزدیک بیست ساعت و نیم بیوقفه داشته باشی بدون اینکه نیاز به اینترنت داشته باشی.
در نتیجه، اگه دوست داری یه روزی مدلهای خیلی پیشرفته هوش مصنوعی رو تو جیبت بزاری و همه کارها رو خودکار و هوشمند انجام بدی، این قبیل سیستمها قطعاً آینده رو میسازن. به زبون ساده: مدلهای بزرگ دیگه قرار نیست فقط توی سرورای عظیم دیتاسنترها اجرا بشن، بلکه با ترکیب نرمافزار و سختافزار با این روش هوشمندانه، حتی رو دستگاههای کوچیک خونگی هم از پسشون برمیایم!
منبع: +