آموزش هوشمند و سریع‌تر ربات‌های کامپیوتری با فیلترینگ مرحله‌ای: داستان WebSTAR و WebSCORE

Fall Back

خب بچه‌ها بذارین خیلی راحت و خودمونی کل ماجرا رو تعریف کنم! موضوع این مقاله راجع به همون ربات‌هایی هست که داخل کامپیوتر کار می‌کنن، مثلاً یه سری کار رو تو فضای وب یا نرم‌افزار انجام می‌دن بدون اینکه خودمون مستقیم کنترلشون کنیم. به اینا می‌گن Computer Use Agents یا همون CUA، یعنی “عامل‌هایی که برامون با رابط‌های گرافیکی (مثل ویندوز یا وب‌سایت‌ها) کارهای مختلف انجام می‌دن”.

مشکل اصلی این ربات‌ها اینه که برای اینکه حسابی باهوش بشن و بتونن کارهای واقعی و پیچیده انجام بدن، باید کلی داده دقیق بهشون داد و کلی آموزش ببینن. ولی جمع کردن این داده‌ها خیلی گرونه چون باید آدم واقعی بیاد بشینه کلی کار درست انجام بده تا ربات یاد بگیره. تازه خیلی وقت‌ها این داده‌ها کافی و کامل هم نیستن.

حالا راه حل چیه؟ تا الان بعضیا اومدن با همین داده‌هایی که آدم‌ها به صورت دستی درست کردن، مدل‌ها رو آموزش دادن. ولی این مقیاس‌پذیر نیست؛ یعنی هر چقدر مدل بزرگ‌تر یا متنوع‌تر بشه، دیگه نمی‌تونیم همیشه از نیروی انسانی استفاده کنیم چون زمان و پول زیادی می‌بره.

ایده جدید مقاله اینه: «خب اساساً چرا به جای آدم‌ها، از خود ربات‌ها استفاده نکنیم که خودشون کار کنن و داده بسازن؟!» ولی یه اشکال بزرگ اینجا هست؛ ربات‌هایی که خودشون هنوز صددرصد دقیق نیستن، وقتی یه کار واقعی انجام می‌دن، کلی حرکت اشتباه دارن. مثلاً فرض کنین یکی از هر ده حرکتش درسته، بقیه‌اش خرابه! این میشه داده پر از نویز و خطا که نمی‌شه روش حساب کرد.

حالا نویسنده‌ها اومدن یه حقه‌ی بامزه زدن که بهش می‌گن “Step-level Filtering” یا همون فیلترینگ مرحله‌ای. این یعنی به جای اینکه کل یه کار یا وظیفه رو قبول یا رد کنیم، میایم دونه‌دونه همه مراحل رو چک می‌کنیم؛ هر کدوم از قدم‌ها که درست بود رو نگه می‌داریم و بقیه رو پرت می‌کنیم دور! اینجوری یه عالمه داده باکیفیت و قابل اعتماد درمیاد، اونم بدون اینکه نیازی به بررسی یا برچسب‌گذاری توسط آدم باشه.

علاوه بر این، نویسنده‌ها از چیزی که بهش می‌گن “Reasoning Augmentation” — یعنی تقویت فرایند تصمیم‌سازی و برنامه‌ریزی مدل‌ها با استدلال بیشتر — هم استفاده کردن تا حرکت‌های بهتری از مدل‌ها بیرون بکشن.

نتیجه این شد که تونستن یه دیتاست خیلی خفن به اسم WebSTAR درست کنن که شامل ۱۳،۳۰۰ تا مسیر انجام کار (بهش می‌گن trajectory) و ۱۰۰،۰۰۰ قدم درست و بااستدلال هست که همه رو با مدل OpenAI ساختن! دیگه لازم نیست کلی آدم استخدام کنی تا داده بسازن.

بعد با همین WebSTAR اومدن دو تا مدل معروف آموزش دادن، به اسم Qwen-2.5-VL-Instruct؛ یکی با ۷ میلیارد پارامتر، یکی با ۳۲ میلیارد. (پارامتر یعنی همون بخش‌های قابل تنظیم هوش مصنوعی که هرچی بیشتر باشه مدل قوی‌تره.)

جالبیش اینجا بود که مدل سبک‌ترشون (همون ۷B) تونست توی یه تست خیلی مهم به اسم WebVoyager از مدل معروف UI-TARS-1.5-7B هم بیشتر از ۱۵٪ بهتر کار کنه — اونم فقط با آموزش بر اساس همین داده درست شده و بدون هیچ ترفند اضافه‌ای!

ولی اینجا داستان تموم نمیشه. با همین ایده “امتیاز‌دهی مرحله‌ای” (Step-level Grading)، یه دیتاست جدید هم درست کردن به اسم WebSCORE که توش هر قدم جدا جدا امتیازدهی شده. روی همین WebSCORE، یه مدل تشویقی (که بهش می‌گن Reward Model) به اسم StepRM درست کردن که کارش اینه بفهمه هر کار چقدر خوب بوده.

نکته جالب: این مدل StepRM با اینکه کوچیک‌تر و سریع‌تر از مدل اصلی o4-mini هست، ولی کیفیت امتیازدهیش عملاً مثل همونه، یعنی می‌تونه راحت و درست تو کارهای بزرگ و واقعی استفاده شه.

جمع بندی خودمونی: این کار نشون داده که اگه برای آموزش این ربات‌های کامپیوتری به جای داده‌های انسانی، داده‌های ماشینی رو با یه سیستم فیلترینگ مرحله‌ای دقیق بسازیم، هم سریع‌تر پیشرفت می‌کنن، هم ارزان‌تر میشن، هم وقت کم‌تری صرف میشه. حاصل داستان هم دوتا دیتاست کاربردی (WebSTAR و WebSCORE) و یه مدل جایزه‌دهی سبک‌تر (StepRM) هست که هر کسی می‌تونه ازشون برای آموزش مدل‌های هوشمند خودش اَستفاده کنه. خلاصه، یک قدم مهم برای ربات‌های مجازی باهوش‌تر و همه‌فن‌حریف!

منبع: +