آشنایی با LATTS: یه تکنیک هوشمند برای مدیریت بهتر قدرت محاسباتی مدل‌های زبانی

Fall Back

خب ببین، موضوع امروز درباره مدل‌های زبانی بزرگه (LLMs)، یعنی همون هوش مصنوعی‌هایی که مثل ChatGPT می‌تونن متن بنویسن یا سوال جواب بدن و کلی کار خفن انجام بدن. معمولاً وقتی این مدل‌ها می‌خوان یه کار جدید یاد بگیرن، یا جواب بدن، یکی از روش‌هایی که هست اینه که از یه مدل اضافی به اسم “verifier model” (یعنی مدل تاییدکننده، یه مدل کمکی که بررسی می‌کنه خروجی مدل اصلی درسته یا نه) کمک بگیرن تا بهتر جواب بدن یا جوابای بهتر رو انتخاب کنن.

حالا مشکل کجاست؟ اکثر روش‌هایی که از این مدل تاییدکننده استفاده می‌کنن، واسه هر نمونه ورودی یا هر بار تولید متن، یه مقدار مشخصی محاسبات انجام می‌دن. یعنی فرقی نمی‌کنه سوال آسون باشه یا سخت، همیشه از یه اندازه محاسبه استفاده می‌کنن. این باعث میشه منابع سیستمی که داری (یعنی قدرت پردازش یا همون compute) هدر بره، مخصوصاً وقتی نمونه‌ها آسونن.

اینجاست که روش جدیدی به اسم LATTS وارد میشه! اسم کاملش هست Locally Adaptive Test-Time Scaling، یعنی “مدیریت مقیاس محاسبه زمان تست به صورت تطبیقی و محلی”. خلاصه‌تر بخوام بگم، LATTS یه جور روش هوشمنده که می‌تونه وقتی مدل اصلی داره چیزی تولید می‌کنه، تو هر مرحله، تصمیم بگیره که چقدر وقت و انرژی محاسباتی خرج کنه.

چطوری کار می‌کنه؟
در هر مرحله که مدل داره متن تولید می‌کنه، LATTS میاد با کمک همون مدل تاییدکننده (verifier)، وضعیت رو چک می‌کنه. بعد براساس یه سری معیار (بهش می‌گن acceptance criterion یعنی معیار پذیرش)، تصمیم می‌گیره که الان:

  • همین جواب رو قبول کنیم؟
  • دوباره جواب تولید کنیم؟ (که به این می‌گن resample)
  • چند قدم برگردیم عقب و راه دیگه‌ای امتحان کنیم؟ (به این می‌گن backtrack)
  • کلاً از اول شروع کنیم؟ (یعنی restart)
  • یا اینکه روند تولید رو متوقف کنیم و بیخیال شیم؟

این تصمیم با توجه به “local difficulty” گرفته میشه، یعنی اینکه الان تو این مرحله، وضعیت چقدر سخته یا آسونه (local یعنی مرحله به مرحله و difficulty یعنی میزان سختی). اگه مرحله آسون باشه، محاسبه زیادی لازم نیست؛ اگه سخت باشه، بیشتر سرمایه‌گذاری می‌کنه تا بهترین جواب رو پیدا کنه.

حالا چیزی که خیلی مهمه اینه که با این روش، توازن خیلی بهتری بین دقت جواب‌ها و هزینه محاسباتی ایجاد میشه. یعنی بدون اینکه بی‌خودی منابع رو الکی خرج کنیم، می‌تونیم جواب‌های خیلی بهتری بگیریم. داده‌ها نشون دادن که روش LATTS نسبت به روش‌های سنتی که همیشه به یه اندازه کامپیوتر رو درگیر می‌کنن، هم دقتش بهتره هم منابع رو بهتر مدیریت می‌کنه.

جمع‌بندی: اگه دوست داری هوش مصنوعی‌ات باهوش‌تر و کم‌خرج‌تر باشه، LATTS گزینه خیلی خوبیه. هم دقت رو می‌بره بالا، هم منابع رو هدر نمی‌ده؛ خلاصه مثل کمک گرفتن از یه مدیر برنامه هوشمند برای مغز مدل‌های زبانی!

منبع: +