مدل‌های زبانی بزرگ سبک‌تر: اجرای هوش مصنوعی بر روی دستگاه‌های شما

مدل‌های زبانی بزرگ سبک‌تر (LLMs) این امکان را فراهم می‌کنند که بتوانید هوش مصنوعی را به صورت کارآمد و محلی، بر روی دستگاه‌هایی مانند تلفن‌ها و لپ‌تاپ‌هایتان اجرا کنید. این تکنیک فشرده‌سازی نوآورانه، افزونگی‌ها را در LLMs کاهش می‌دهد و در عین حفظ دقت، امکان ذخیره‌سازی و دسترسی محلی را فراهم می‌آورد. این به این معنی است که به زودی دسترسی به LLM ها و قدرت هوش مصنوعی متحول خواهد شد.

مدل‌های زبانی بزرگ (LLMs) نحوه تعامل ما با فناوری را تغییر می‌دهند و وظایفی مانند ترجمه، طبقه‌بندی متن و خدمات مشتری را خودکار می‌کنند. با این حال، استفاده فعلی از LLM به سرورهای متمرکز وابسته است و چالش‌هایی را در رابطه با هزینه، مصرف انرژی و سرعت ایجاد می‌کند. محققان دانشگاه‌های پرینستون و استنفورد، تکنیک فشرده‌سازی پیشگامانه‌ای را توسعه داده‌اند که می‌تواند دسترسی به LLM را با فعال کردن استفاده محلی کارآمد بر روی دستگاه‌هایی مانند تلفن‌ها و لپ‌تاپ‌ها متحول کند. این رویکرد نوآورانه، که با نام CALDERA (کالیبراسیون آگاه با تجزیه کم دقت و تطبیق رتبه پایین) شناخته می‌شود، افزونگی‌ها را کاهش می‌دهد و دقت لایه‌های داده یک LLM را کم می‌کند و در نتیجه مدلی سبک‌تر ایجاد می‌شود که می‌تواند به‌صورت محلی ذخیره و قابل دسترسی باشد و در عین حال دقت و ظرافت نزدیک به مدل اصلی را حفظ کند.

مزایای این رویکرد محلی چندوجهی است. این رویکرد با حذف نیاز به ارسال داده‌های حساس به سرورهای خارجی، نگرانی‌های مربوط به حریم خصوصی را برطرف می‌کند. مصرف انرژی را به طور قابل توجهی کاهش می‌دهد و هزینه‌های عملیاتی مرتبط با نگهداری سرور و انتقال داده‌ها را پایین می‌آورد. علاوه بر این، با حذف تأخیر مرتبط با ارتباط با سرور، سرعت و پاسخگویی را افزایش می‌دهد.

آندریا گلداسمیت، رئیس دانشکده مهندسی و علوم کاربردی پرینستون، توضیح می‌دهد: «هر زمان که بتوانید پیچیدگی محاسباتی، نیازهای ذخیره‌سازی و پهنای باند استفاده از مدل‌های هوش مصنوعی را کاهش دهید، می‌توانید هوش مصنوعی را بر روی دستگاه‌ها و سیستم‌هایی فعال کنید که در غیر این صورت نمی‌توانستند چنین وظایف فشرده محاسباتی و حافظه‌ای را انجام دهند.»

در حال حاضر، استفاده از LLMهایی مانند ChatGPT مستلزم ارسال درخواست به سرورهای پشتیبان قدرتمند است، فرآیندی که هزینه‌های محاسباتی قابل توجهی را به همراه دارد. تکنیک فشرده‌سازی جدید با فعال کردن استنتاج LLM بر روی GPUهای (واحدهای پردازش گرافیکی) مصرف‌کننده، قصد دارد این الگو را تغییر دهد. راجارشی ساها، دانشجوی دکترای مهندسی استنفورد و یکی از نویسندگان این مطالعه، می‌گوید: «بنابراین، شما می‌خواهید بتوانید این استنتاج LLM را با استفاده از GPUهای مصرف‌کننده انجام دهید و راه انجام این کار فشرده‌سازی این LLMها است.»

CALDERA بر اساس تحقیقات قبلی در مورد فشرده‌سازی مجموعه داده‌های بزرگ مورد استفاده برای آموزش مدل‌های هوش مصنوعی ساخته شده است. این کار قبلی بر فشرده‌سازی ماتریس‌ها، شبکه‌های اعداد مورد استفاده برای ذخیره داده‌ها، در این مجموعه داده‌ها متمرکز بود. محققان با درک این موضوع که خود مدل‌ها نیز به طور فزاینده‌ای بزرگ می‌شوند، تکنیک خود را برای فشرده‌سازی ماتریس‌های وزن LLMs که الگوهای کلمات آموخته شده را نشان می‌دهند، تطبیق دادند.

نوآوری کلیدی CALDERA در استفاده ترکیبی از فشرده‌سازی «دقت پایین» و «رتبه پایین» نهفته است. دقت پایین تعداد بیت‌های مورد استفاده برای نمایش اطلاعات را کاهش می‌دهد و سرعت و راندمان انرژی را بهبود می‌بخشد. از سوی دیگر، رتبه پایین افزونگی‌ها را در ماتریس‌های وزن حذف می‌کند. ساها توضیح می‌دهد: «با استفاده از هر دوی این ویژگی‌ها، می‌توانیم فشرده‌سازی بسیار بیشتری نسبت به آنچه هر یک از این تکنیک‌ها می‌توانند به صورت جداگانه به دست آورند، داشته باشیم.»

محققان CALDERA را بر روی مدل‌های Llama 2 و Llama 3 متن‌باز هوش مصنوعی متا آزمایش کردند. نتایج نشان‌دهنده پیشرفت‌های قابل توجهی نسبت به روش‌های موجود با دقت پایین، به‌ویژه در معیارهای اندازه‌گیری عدم قطعیت در پیش‌بینی توالی کلمات بود. عملکرد با استفاده از وظایف معیار، از جمله سناریوهای استدلال منطقی و استدلال فیزیکی، ارزیابی شد. مدل‌های فشرده شده دقت شگفت‌انگیزی را نشان دادند که نشان‌دهنده قابلیت حیات این رویکرد برای طیف وسیعی از کاربردها است.

در حالی که این رویکرد LLM فشرده ممکن است برای کارهایی که به بالاترین دقت نیاز دارند مناسب نباشد، درها را به روی کاربردهای عملی متعددی باز می‌کند. استقرار محلی بر روی دستگاه‌هایی مانند تلفن‌های هوشمند و لپ‌تاپ‌ها، حریم خصوصی را افزایش می‌دهد و به کاربران امکان می‌دهد مدل‌ها را با داده‌های شخصی بدون به اشتراک گذاشتن آنها با اشخاص ثالث تنظیم کنند. این امر به‌ویژه برای سازمان‌هایی که با اطلاعات حساس سروکار دارند، مرتبط است.

با این حال، اجرای LLMs به‌صورت محلی بر روی دستگاه‌های دارای محدودیت منابع، چالش‌هایی را به همراه دارد. استفاده از حافظه و تخلیه باتری از ملاحظات کلیدی هستند. در حالی که محاسبات با دقت پایین به کاهش مصرف برق کمک می‌کند، ساها اذعان می‌کند که احتمالاً ترکیبی از تکنیک‌ها برای تحقق کامل پتانسیل LLMs روی دستگاه مورد نیاز است. او هشدار می‌دهد: «اما من نمی‌گویم که یک تکنیک واحد وجود دارد که همه مشکلات را حل کند. آنچه ما در این مقاله پیشنهاد می‌کنیم یک تکنیک است که در ترکیب با تکنیک‌های ارائه شده در کارهای قبلی استفاده می‌شود. و من فکر می‌کنم این ترکیب ما را قادر می‌سازد تا از LLMs در دستگاه‌های تلفن همراه به طور مؤثرتری استفاده کنیم و نتایج دقیق‌تری به دست آوریم.»

توسعه CALDERA گامی مهم در جهت دموکراتیک کردن دسترسی به قابلیت‌های قدرتمند هوش مصنوعی است. این تحقیق با فعال کردن استقرار محلی کارآمد LLMs، راه را برای آینده‌ای هموار می‌کند که در آن قابلیت‌های پیشرفته هوش مصنوعی به راحتی در دستگاه‌های روزمره در دسترس هستند و افراد و سازمان‌ها را با امکانات جدید توانمند می‌سازد.

اگر به خواندن کامل این مطلب علاقه‌مندید، روی لینک مقابل کلیک کنید: techxplore.com