تا حالا شده از خودت بپرسی که این مدلای باهوشِ یادگیری تقویتی چطور فیلم میشن که کارها رو بهتر یاد میگیرن؟ راستش جدیداً محققها فهمیدن که بیشتر مدلها فقط به ویژگیهای زمانی توجه میکنن، نه چیزای دیگه. مثلاً تصور کن یکی فقط به این نگاه کنه که ماشین کی حرکت میکنه و کی توقف، ولی حواسش نباشه که این تغییر سرعتها چه الگویی داره.
حالا اینجا همون «مدلای احتمالاتی دیفیوژن» (Diffusion Probability Models یعنی مدلهایی که تو مراحل مختلف، کمکم داده میسازن و بهترش میکنن) میان وسط! این مدلها یه مدت خیلی سروصدا کردن چون میتونن سِکانسِ حرکتی (Trajectory Sequence: یعنی دنباله حرکتهای یه عامل تو یه محیط) رو مستقیم مدل کنن و تصمیم بگیرن چیکار بهتره انجام بدن.
ولی مشکلی که اینجا هست اینه که مدلهای قبلی بیشتر چسبیدن به «ویژگی زمانی» و سراغ ویژگی فرکانسی (Frequency-Domain: یعنی آنالیز سیگنالها از جهت فرکانس، مثل اینکه یه موسیقی کدوم نتهاش بم یا زیاده) نرفتن! این کار باعث میشه که عملکردشون یه خورده مشکلدار بشه و نتونن به خوبی حرکات نرم و باثبات تولید کنن. مخصوصاً متوجه شدن مدلهایی که فقط به زمان نگاه میکنن، باعث “شیفت فرکانسی” (Frequency Shift یعنی حرکت اطلاعات کمفرکانس از جای اصلیشون که روی حرکت نرم تأثیر میذاره) میشن و این روی همه چیز تاثیر منفی میذاره.
حالا این مقاله یه روش خفن و متفاوت پیشنهاد داده. اسمش رو گذاشتن Wavelet Fourier Diffuser (یا به اختصار WFDiffuser). قضیه اینه که این مدل میاد با استفاده از تبدیل موجک گسسته (Discrete Wavelet Transform – یعنی یه جور تکنیک که سیگنال رو همزمان تو زمان و فرکانس تجزیه میکنه) هر سِکانس حرکتی رو میشکونه به دوتا بخش: یکی بخش کمفرکانس و یکی بخش پُرفرکانس.
بعد برای هر بخش هم مدلهای خاصی پیاده کردن. اول میان با تبدیل فوریه کوتاهمدت (Short-Time Fourier Transform: یه تکنیک که اجازه میده بخشهای کوچکتر و متفاوت از سیگنال رو از نظر فرکانسی بررسی کنی) ویژگیهای فرکانسی رو درمیارن. بعدش با سازوکار «کراساَتِنشن» (Cross Attention Mechanism – یعنی یه روش پیشرفته که بخشهای مختلف سیگنال رو به هم وصل میکنه تا بینشون تعامل ایجاد بشه) کمک میگیرن که هر دو قسمت سیگنال بتونن با هم ارتباط برقرار کنن و کلی اطلاعات ریز و دقیق دربیارن!
این روش جدید رو روی دیتاست D4RL (D4RL یه دیتابیس مرجع برای آزمایش مدلهای یادگیری تقویتی آفلاین، با کلی محیط شبیهسازی شده مثل ربات، رانندگی و … ) امتحان کردن و فهمیدن که دیگه از اون شیفتهای فرکانسی خبری نیست! نتیجه اینه که WFDiffuser میتونه حرکات نرمتر، باثباتتر و تصمیمگیریهای قویتری نسبت به مدلهای قبلی داشته باشه.
خلاصه اینکه اگه دنبال یه مدل یادگیری تقویتی هستی که از اول تا آخر رفتاراش نرم و هوشمندانه باشه و فقط به زمان بسنده نکنه، این Wavelet Fourier Diffuser حرف نداره! مخصوصاً وقتی کار به سیگنالهای پیچیده و محیطای متنوع میکشه، قدرت این مدل بیشتر معلوم میشه.
منبع: +