مدلهای زبانی بزرگ سبکتر (LLMs) این امکان را فراهم میکنند که بتوانید هوش مصنوعی را به صورت کارآمد و محلی، بر روی دستگاههایی مانند تلفنها و لپتاپهایتان اجرا کنید. این تکنیک فشردهسازی نوآورانه، افزونگیها را در LLMs کاهش میدهد و در عین حفظ دقت، امکان ذخیرهسازی و دسترسی محلی را فراهم میآورد. این به این معنی است که به زودی دسترسی به LLM ها و قدرت هوش مصنوعی متحول خواهد شد.
مدلهای زبانی بزرگ (LLMs) نحوه تعامل ما با فناوری را تغییر میدهند و وظایفی مانند ترجمه، طبقهبندی متن و خدمات مشتری را خودکار میکنند. با این حال، استفاده فعلی از LLM به سرورهای متمرکز وابسته است و چالشهایی را در رابطه با هزینه، مصرف انرژی و سرعت ایجاد میکند. محققان دانشگاههای پرینستون و استنفورد، تکنیک فشردهسازی پیشگامانهای را توسعه دادهاند که میتواند دسترسی به LLM را با فعال کردن استفاده محلی کارآمد بر روی دستگاههایی مانند تلفنها و لپتاپها متحول کند. این رویکرد نوآورانه، که با نام CALDERA (کالیبراسیون آگاه با تجزیه کم دقت و تطبیق رتبه پایین) شناخته میشود، افزونگیها را کاهش میدهد و دقت لایههای داده یک LLM را کم میکند و در نتیجه مدلی سبکتر ایجاد میشود که میتواند بهصورت محلی ذخیره و قابل دسترسی باشد و در عین حال دقت و ظرافت نزدیک به مدل اصلی را حفظ کند.
مزایای این رویکرد محلی چندوجهی است. این رویکرد با حذف نیاز به ارسال دادههای حساس به سرورهای خارجی، نگرانیهای مربوط به حریم خصوصی را برطرف میکند. مصرف انرژی را به طور قابل توجهی کاهش میدهد و هزینههای عملیاتی مرتبط با نگهداری سرور و انتقال دادهها را پایین میآورد. علاوه بر این، با حذف تأخیر مرتبط با ارتباط با سرور، سرعت و پاسخگویی را افزایش میدهد.
آندریا گلداسمیت، رئیس دانشکده مهندسی و علوم کاربردی پرینستون، توضیح میدهد: «هر زمان که بتوانید پیچیدگی محاسباتی، نیازهای ذخیرهسازی و پهنای باند استفاده از مدلهای هوش مصنوعی را کاهش دهید، میتوانید هوش مصنوعی را بر روی دستگاهها و سیستمهایی فعال کنید که در غیر این صورت نمیتوانستند چنین وظایف فشرده محاسباتی و حافظهای را انجام دهند.»
در حال حاضر، استفاده از LLMهایی مانند ChatGPT مستلزم ارسال درخواست به سرورهای پشتیبان قدرتمند است، فرآیندی که هزینههای محاسباتی قابل توجهی را به همراه دارد. تکنیک فشردهسازی جدید با فعال کردن استنتاج LLM بر روی GPUهای (واحدهای پردازش گرافیکی) مصرفکننده، قصد دارد این الگو را تغییر دهد. راجارشی ساها، دانشجوی دکترای مهندسی استنفورد و یکی از نویسندگان این مطالعه، میگوید: «بنابراین، شما میخواهید بتوانید این استنتاج LLM را با استفاده از GPUهای مصرفکننده انجام دهید و راه انجام این کار فشردهسازی این LLMها است.»
CALDERA بر اساس تحقیقات قبلی در مورد فشردهسازی مجموعه دادههای بزرگ مورد استفاده برای آموزش مدلهای هوش مصنوعی ساخته شده است. این کار قبلی بر فشردهسازی ماتریسها، شبکههای اعداد مورد استفاده برای ذخیره دادهها، در این مجموعه دادهها متمرکز بود. محققان با درک این موضوع که خود مدلها نیز به طور فزایندهای بزرگ میشوند، تکنیک خود را برای فشردهسازی ماتریسهای وزن LLMs که الگوهای کلمات آموخته شده را نشان میدهند، تطبیق دادند.
نوآوری کلیدی CALDERA در استفاده ترکیبی از فشردهسازی «دقت پایین» و «رتبه پایین» نهفته است. دقت پایین تعداد بیتهای مورد استفاده برای نمایش اطلاعات را کاهش میدهد و سرعت و راندمان انرژی را بهبود میبخشد. از سوی دیگر، رتبه پایین افزونگیها را در ماتریسهای وزن حذف میکند. ساها توضیح میدهد: «با استفاده از هر دوی این ویژگیها، میتوانیم فشردهسازی بسیار بیشتری نسبت به آنچه هر یک از این تکنیکها میتوانند به صورت جداگانه به دست آورند، داشته باشیم.»
محققان CALDERA را بر روی مدلهای Llama 2 و Llama 3 متنباز هوش مصنوعی متا آزمایش کردند. نتایج نشاندهنده پیشرفتهای قابل توجهی نسبت به روشهای موجود با دقت پایین، بهویژه در معیارهای اندازهگیری عدم قطعیت در پیشبینی توالی کلمات بود. عملکرد با استفاده از وظایف معیار، از جمله سناریوهای استدلال منطقی و استدلال فیزیکی، ارزیابی شد. مدلهای فشرده شده دقت شگفتانگیزی را نشان دادند که نشاندهنده قابلیت حیات این رویکرد برای طیف وسیعی از کاربردها است.
در حالی که این رویکرد LLM فشرده ممکن است برای کارهایی که به بالاترین دقت نیاز دارند مناسب نباشد، درها را به روی کاربردهای عملی متعددی باز میکند. استقرار محلی بر روی دستگاههایی مانند تلفنهای هوشمند و لپتاپها، حریم خصوصی را افزایش میدهد و به کاربران امکان میدهد مدلها را با دادههای شخصی بدون به اشتراک گذاشتن آنها با اشخاص ثالث تنظیم کنند. این امر بهویژه برای سازمانهایی که با اطلاعات حساس سروکار دارند، مرتبط است.
با این حال، اجرای LLMs بهصورت محلی بر روی دستگاههای دارای محدودیت منابع، چالشهایی را به همراه دارد. استفاده از حافظه و تخلیه باتری از ملاحظات کلیدی هستند. در حالی که محاسبات با دقت پایین به کاهش مصرف برق کمک میکند، ساها اذعان میکند که احتمالاً ترکیبی از تکنیکها برای تحقق کامل پتانسیل LLMs روی دستگاه مورد نیاز است. او هشدار میدهد: «اما من نمیگویم که یک تکنیک واحد وجود دارد که همه مشکلات را حل کند. آنچه ما در این مقاله پیشنهاد میکنیم یک تکنیک است که در ترکیب با تکنیکهای ارائه شده در کارهای قبلی استفاده میشود. و من فکر میکنم این ترکیب ما را قادر میسازد تا از LLMs در دستگاههای تلفن همراه به طور مؤثرتری استفاده کنیم و نتایج دقیقتری به دست آوریم.»
توسعه CALDERA گامی مهم در جهت دموکراتیک کردن دسترسی به قابلیتهای قدرتمند هوش مصنوعی است. این تحقیق با فعال کردن استقرار محلی کارآمد LLMs، راه را برای آیندهای هموار میکند که در آن قابلیتهای پیشرفته هوش مصنوعی به راحتی در دستگاههای روزمره در دسترس هستند و افراد و سازمانها را با امکانات جدید توانمند میسازد.
اگر به خواندن کامل این مطلب علاقهمندید، روی لینک مقابل کلیک کنید: techxplore.com