خب بچهها، اگه تو حوزه راهآهن و زیرساختهاش یه کم کنجکاو باشین، حتما میدونین که شناسایی تصاویر راهآهن (RIC) چقدر مهمه. این کار یعنی بررسی و طبقهبندی تصاویری که با دوربینای مخصوص از قسمتهای مختلف راهآهن گرفته شدن، مخصوصاً با دادههای هایپراسپکترال! (هایپراسپکترال یعنی تصاویری که اطلاعات خیلی دقیق و رنگهای متفاوت از طیف نور رو تو هر نقطه تصویر دارن، نه فقط رنگایی که چشم ما میبینه.) این تصاویر کلی اطلاعات در مورد محیط و وضعیت راهآهن بهمون میدن.
حالا مشکل چیه؟ مدلهای ترنسفورمر (Transformers)، که کلی تو کارای تصویری ترکوندن، وقتی میرن سراغ تصاویر راهآهن، بعضی جاها کم میارن! مثلا گرفتن ویژگیهای ریز محلی (همون جزئیاتی که مثلا ترک کوچیک ریل رو نشون میده) براشون سخت میشه، یا اینکه زمان آموزششون خیلی زیاد درمیاد.
حالا ما چی کار کردیم؟ یه مدل جدید به اسم Pure Transformer Network (PTN) ساختیم. این مدل قشنگ کلاً بر اساس ترنسفورمر هست و مخصوص کار با تصاویر راهآهن طراحی شده. هدفش اینه که هم اطلاعات ریز (محلی) رو خوب بگیره، هم اطلاعات کلی (سیستمی و کل تصویر) رو درست ترکیب کنه.
ولی بخش جذابش کجاست؟ ما توی PTN یه ماژول اضافه کردیم به اسم Patch Embedding Transformer یا همون PET. این ماژول از یه تکنیک «بازکردن + توجه + بستن» (Unfold + Attention + Fold) استفاده میکنه که خیلی شبیه عملیاتای کانولوشن (convolution؛ یعنی جستجوی یک الگو توی تصویر با یه هسته ثابت) هست، اما چون از توجه (attention) استفاده میکنه، میتونه سایز و شکل اون بخشی رو که باید روش زوم کنه، بسته به پیچیدگی راهآهن، تغییر بده. یعنی دیگه مثل کانولوشن کلاسیک گیر نمیفته رو یه محدوده ثابت.
یه توضیح ساده از attention: توجه یا attention، یه قابلیت تو هوش مصنوعیه که به مدل کمک میکنه بفهمه کدوم قسمت تصویر یا جمله مهمتره و باید بیشتر بهش دقت کنه.
توی بخش بعدی هم یه کار جالب کردیم. یه الگوریتم حافظه-بهینه (Memory Efficient Algorithm) آوردیم که باعث میشه آموزش مدل ۳۵٪ سریعتر بشه، بدون اینکه دقتش بیاد پایین! یعنی دیگه لازم نیست نگران زمان طولانی آموزش باشین.
خلاصه، PTN رو روی چهار تا دیتاست هایپراسپکترال راهآهن امتحان کردیم و دیدیم از مدلهای قبلی که با CNN (شبکه عصبی کانولوشنی) یا خود ترنسفورمرهای دیگه بودن، هم دقیقتر کار میکنه، هم سریعتر یاد میگیره.
در کل، اگه دنبال روشی میگردین که هم جزئیات ریز و هم نمای کلی تصاویر راهآهن رو بتونه قشنگ دستهبندی کنه، و نگرانی حافظه و سرعت آموزش رو هم ندارین، PTN همون چیزیه که میخواین امتحان کنین!
منبع: +