بذارین یه داستان جالب رو براتون تعریف کنم؛ فرض کنین یکی بخواد یه دستیار هوشمند بسازه که بتونه توی محیطهای واقعی موبایل کار کنه و با رابط کاربری (اون چیزی که روی صفحه نمایش میبینیم و باهاش کار میکنیم) حسابی راحت باشه. این دقیقاً کاریه که پروژه MagicGUI انجام داده!
خب، اسم کاملش MagicGUI ـه و basically یه جور «عامل (agent) پایهای» برای رابط کاربری موبایل به حساب میاد. Agent اینجا یعنی یه موجود نرمافزاری که میتونه به جای شما کلی کار انجام بده و تصمیم بگیره.
حالا مشکل چیه؟ رابط کاربری موبایل پر از چالشای عجیب و غریبه — هم باید خوب ببینه و بفهمه (perception)، هم باید همه چیز رو روی صفحه به درستی تشخیص بده (grounding)، بعدشم باید بتونه استدلال کنه و کاربر رو بفهمه (reasoning). MagicGUI با یه پکیج فوقالعاده سعی کرده همهی اینا رو حل کنه.
بذار قدم به قدم مهمترین بخشهای MagicGUI رو با هم مرور کنیم:
۱. دیتاست خفن و همهچیز تموم!
گروه MagicGUI یه دادهکلفت باحال درست کردن که همهچیز توش هست: از جایهای متن باز گرفته تا خزیدن خودکار تو سایتها و حتی برچسبگذاری دستی (annotation یعنی علامتگذاری دادهها توسط آدما). این دیتاست تا الان بزرگترین و متنوعترین مجموعه داده در حوزه رابط کاربری موبایله. یعنی اگه بخوای یه مدل بسازی که واقعاً بفهمه موبایل چجوری کار میکنه، این دیتاست بهترین مرجعته.
۲. درک و تشخیص قویتر (Enhanced Perception and Grounding)
یه چیزی لازم بود که مدل بتونه دقیق بفهمه هر چیزی تو صفحه چی هست و به چی اشاره میکنیم. اساس کار MagicGUI اینه که محتوای صوتی، متنی و تصویری رو با هم قاطی کنه و برای هر دکمه یا المان کاملاً مشخصش کنه. grounding یعنی اینکه مدل دقیقاً بفهمه کاربر کدوم دکمه یا بخش رو میگه.
۳. فضای عملیاتی کامل و یکپارچه (Comprehensive Unified Action Space)
اینجا اومدن همه نوع کار ممکن توی رابط کاربری، از خیلی ساده تا خیلی پیچیده رو، به صورت یکجا پوشش دادن. Action Space یعنی مجموعه کارهایی که مدل میتونه انجام بده؛ مثلاً کلیک، کشیدن، یا حتی تعاملات خاصتر و هوشمند با کاربر.
۴. استدلال برنامهریزی محور (Planning-Oriented Reasoning)
مدل MagicGUI میتونه وقتی دستور پیچیدهای میشنوه، اونو بشکنه به چند حرکت سادهتر و دونه دونه جلو بره؛ مثل وقتی به یه نفر میگی «برو آشپزخونه لیوانو بردار، بعد آب بریز و بیا». این سیستم بهش میگن reasoning یا همون مهارت استدلال و برنامهریزی.
۵. آموزش دو مرحلهای با کلی داده و پاداش مخصوص!
اینا دو فاز آموزشی داشتن: اول روی ۷.۸ میلیون نمونه داده مدام به مدل یاد دادن (pre-training یعنی آموزش اولیه بزرگ). بعدش اومدن مدل رو با روشی شبیه reinforcement learning (که یعنی یادگیری از طریق پاداش و خطا مثل بازی کردن) تخصصیتر کردن. یه جور سیستم پاداش هم دارن که وابسته به موقعیت توی صفحه هست و فقط جواب خوب رو قبول میکنه.
۶. عملکرد محشر تو آزمونای واقعی و علنی!
در انتها، این مدل رو توی چندتا آزمون جدی محک زدن. هم یه بنچمارک اختصاصی براش ساختن به اسم Magic-RICH که پر از تستای واقعیه، هم توی دوازده تا آزمون معروف عمومی دیگه باهاش رقابت کردن. نتیجه؟ MagicGUI تونسته رکورد بزنه و کلی مدل دیگه رو تو درک رابط کاربری و انجام کارهای یک دستیار موبایلی شکست بده.
جمعبندی؟ MagicGUI به خوبی نشون داده که میتونه تو دنیای واقعی، وقتی اپلیکیشنها و محیط کاربریهای پیچیده موبایل سر راهشن، دوام بیاره و دستیار هوشمندی باشه که واسه کاربرا کلی کار رو آسون میکنه. اگه دنبال یه مدل پایهای قوی برای رابط کاربری موبایل هستین که هم میشه روش حساب کرد، هم میشه باهاش مدلهای بهتر ساخت، باید MagicGUI رو یه نگاهی بندازین!
منبع: +