یه مدل جدید باهوش: Wavelet Fourier Diffuser چطور یادگیری تقویتی رو قوی‌تر می‌کنه!

تا حالا شده از خودت بپرسی که این مدلای باهوشِ یادگیری تقویتی چطور فیلم میشن که کارها رو بهتر یاد می‌گیرن؟ راستش جدیداً محقق‌ها فهمیدن که بیشتر مدل‌ها فقط به ویژگی‌های زمانی توجه می‌کنن، نه چیزای دیگه. مثلاً تصور کن یکی فقط به این نگاه کنه که ماشین کی حرکت می‌کنه و کی توقف، ولی حواسش نباشه که این تغییر سرعت‌ها چه الگویی داره.

حالا اینجا همون «مدلای احتمالاتی دیفیوژن» (Diffusion Probability Models یعنی مدل‌هایی که تو مراحل مختلف، کم‌کم داده می‌سازن و بهترش می‌کنن) میان وسط! این مدل‌ها یه مدت خیلی سروصدا کردن چون می‌تونن سِکانسِ حرکتی (Trajectory Sequence: یعنی دنباله حرکت‌های یه عامل تو یه محیط) رو مستقیم مدل کنن و تصمیم بگیرن چیکار بهتره انجام بدن.

ولی مشکلی که اینجا هست اینه که مدل‌های قبلی بیشتر چسبیدن به «ویژگی زمانی» و سراغ ویژگی فرکانسی (Frequency-Domain: یعنی آنالیز سیگنال‌ها از جهت فرکانس، مثل اینکه یه موسیقی کدوم نت‌هاش بم یا زیاده) نرفتن! این کار باعث میشه که عملکردشون یه خورده مشکل‌دار بشه و نتونن به خوبی حرکات نرم و باثبات تولید کنن. مخصوصاً متوجه شدن مدل‌هایی که فقط به زمان نگاه می‌کنن، باعث “شیفت فرکانسی” (Frequency Shift یعنی حرکت اطلاعات کم‌فرکانس از جای اصلی‌شون که روی حرکت نرم تأثیر می‌ذاره) می‌شن و این روی همه چیز تاثیر منفی می‌ذاره.

حالا این مقاله یه روش خفن و متفاوت پیشنهاد داده. اسمش رو گذاشتن Wavelet Fourier Diffuser (یا به اختصار WFDiffuser). قضیه اینه که این مدل میاد با استفاده از تبدیل موجک گسسته (Discrete Wavelet Transform – یعنی یه جور تکنیک که سیگنال رو همزمان تو زمان و فرکانس تجزیه می‌کنه) هر سِکانس حرکتی رو می‌شکونه به دوتا بخش: یکی بخش کم‌فرکانس و یکی بخش پُرفرکانس.

بعد برای هر بخش هم مدل‌های خاصی پیاده کردن. اول میان با تبدیل فوریه کوتاه‌مدت (Short-Time Fourier Transform: یه تکنیک که اجازه می‌ده بخش‌های کوچکتر و متفاوت از سیگنال رو از نظر فرکانسی بررسی کنی) ویژگی‌های فرکانسی رو درمیارن. بعدش با سازوکار «کراساَتِنشن» (Cross Attention Mechanism – یعنی یه روش پیشرفته که بخش‌های مختلف سیگنال رو به هم وصل می‌کنه تا بینشون تعامل ایجاد بشه) کمک می‌گیرن که هر دو قسمت سیگنال بتونن با هم ارتباط برقرار کنن و کلی اطلاعات ریز و دقیق دربیارن!

این روش جدید رو روی دیتاست D4RL (D4RL یه دیتابیس مرجع برای آزمایش مدل‌های یادگیری تقویتی آفلاین، با کلی محیط شبیه‌سازی شده مثل ربات، رانندگی و … ) امتحان کردن و فهمیدن که دیگه از اون شیفت‌های فرکانسی خبری نیست! نتیجه اینه که WFDiffuser می‌تونه حرکات نرم‌تر، باثبات‌تر و تصمیم‌گیری‌های قوی‌تری نسبت به مدل‌های قبلی داشته باشه.

خلاصه اینکه اگه دنبال یه مدل یادگیری تقویتی هستی که از اول تا آخر رفتاراش نرم و هوشمندانه باشه و فقط به زمان بسنده نکنه، این Wavelet Fourier Diffuser حرف نداره! مخصوصاً وقتی کار به سیگنال‌های پیچیده و محیطای متنوع می‌کشه، قدرت این مدل بیشتر معلوم میشه.

منبع: +