یه ترنسفورمر باحال برای شناسایی تصاویر راه‌آهن: سریع‌تر، دقیق‌تر!

خب بچه‌ها، اگه تو حوزه راه‌آهن و زیرساخت‌هاش یه کم کنجکاو باشین، حتما می‌دونین که شناسایی تصاویر راه‌آهن (RIC) چقدر مهمه. این کار یعنی بررسی و طبقه‌بندی تصاویری که با دوربینای مخصوص از قسمت‌های مختلف راه‌آهن گرفته شدن، مخصوصاً با داده‌های هایپراسپکترال! (هایپراسپکترال یعنی تصاویری که اطلاعات خیلی دقیق و رنگ‌های متفاوت از طیف نور رو تو هر نقطه تصویر دارن، نه فقط رنگایی که چشم ما می‌بینه.) این تصاویر کلی اطلاعات در مورد محیط و وضعیت راه‌آهن بهمون می‌دن.

حالا مشکل چیه؟ مدل‌های ترنسفورمر (Transformers)، که کلی تو کارای تصویری ترکوندن، وقتی می‌رن سراغ تصاویر راه‌آهن، بعضی جاها کم میارن! مثلا گرفتن ویژگی‌های ریز محلی (همون جزئیاتی که مثلا ترک کوچیک ریل رو نشون می‌ده) براشون سخت میشه، یا اینکه زمان آموزششون خیلی زیاد درمیاد.

حالا ما چی کار کردیم؟ یه مدل جدید به اسم Pure Transformer Network (PTN) ساختیم. این مدل قشنگ کلاً بر اساس ترنسفورمر هست و مخصوص کار با تصاویر راه‌آهن طراحی شده. هدفش اینه که هم اطلاعات ریز (محلی) رو خوب بگیره، هم اطلاعات کلی (سیستمی و کل تصویر) رو درست ترکیب کنه.

ولی بخش جذابش کجاست؟ ما توی PTN یه ماژول اضافه کردیم به اسم Patch Embedding Transformer یا همون PET. این ماژول از یه تکنیک «بازکردن + توجه + بستن» (Unfold + Attention + Fold) استفاده می‌کنه که خیلی شبیه عملیاتای کانولوشن (convolution؛ یعنی جستجوی یک الگو توی تصویر با یه هسته ثابت) هست، اما چون از توجه (attention) استفاده می‌کنه، می‌تونه سایز و شکل اون بخشی رو که باید روش زوم کنه، بسته به پیچیدگی راه‌آهن، تغییر بده. یعنی دیگه مثل کانولوشن کلاسیک گیر نمیفته رو یه محدوده ثابت.

یه توضیح ساده از attention: توجه یا attention، یه قابلیت تو هوش مصنوعیه که به مدل کمک می‌کنه بفهمه کدوم قسمت تصویر یا جمله مهم‌تره و باید بیشتر بهش دقت کنه.

توی بخش بعدی هم یه کار جالب کردیم. یه الگوریتم حافظه-بهینه (Memory Efficient Algorithm) آوردیم که باعث میشه آموزش مدل ۳۵٪ سریع‌تر بشه، بدون اینکه دقتش بیاد پایین! یعنی دیگه لازم نیست نگران زمان طولانی آموزش باشین.

خلاصه، PTN رو روی چهار تا دیتاست هایپراسپکترال راه‌آهن امتحان کردیم و دیدیم از مدل‌های قبلی که با CNN (شبکه عصبی کانولوشنی) یا خود ترنسفورمرهای دیگه بودن، هم دقیق‌تر کار می‌کنه، هم سریع‌تر یاد می‌گیره.

در کل، اگه دنبال روشی می‌گردین که هم جزئیات ریز و هم نمای کلی تصاویر راه‌آهن رو بتونه قشنگ دسته‌بندی کنه، و نگرانی حافظه و سرعت آموزش رو هم ندارین، PTN همون چیزیه که می‌خواین امتحان کنین!

منبع: +