اگه کم و بیش به هوش مصنوعی و عکسهای هوایی علاقه داری، حتماً با داستان داغ شناسایی اشیاء تو تصاویر پهپادی یه کم آشنا شدی. دنیای پهپادها (همون UAVها، یعنی «وسیلههای پرنده بدون سرنشین») این روزها کلی سر و صدا کرده و کاراییش تو همه چی از کشاورزی و امنیت گرفته تا نجات و مراقبت از محیط زیست، داره خفنتر میشه.
خب، تا همین چند وقت پیش، روشهای قدیمی تشخیص شیء تو تصاویر پهپاد، فقط میتونستن چیزهایی رو پیدا کنن که براشون از قبل تعریف شده بود؛ مثلاً فقط ماشین، انسان یا ساختمان. یعنی اگه بهشون یه شیء جدید نشون میدادی که اسمش تو لیست نبود، کلاً هنگ میکردن و نمیتونستن تشخیصش بدن! همین باعث میشد انعطاف و هوشمندی این سیستمها خیلی محدود بشه.
اما چند سال اخیر با یه فناوری جدید به اسم «همتراز کردن تصویر و متن» (مثلاً مدل معروف CLIP از OpenAI) همه چی عوض شده. این یعنی چی؟ یعنی مدل هوش مصنوعی میفهمه وقتی تو یه جمله توصیفی نوشتی «یه قایق قرمز روی دریا»، دقیقاً منظور چیه و سعی میکنه اون رو تو عکس پیدا کنه، حتی اگه هیچ وقت قبلاً عکس قایق ندیده باشه. اینجا یه اصطلاح تخصصی اومده به اسم Open-Vocabulary Object Detection یا همون OVOD؛ یعنی تشخیص اشیایی که محدود به یه لیست ثابت نیست و با هر توضیحی که به مدل بدی، دنبال همون چیز میگرده. باحال نیست؟
الان پهپادها به کمک OVOD دارن باهوشتر و مستقلتر میشن؛ یعنی شبیه اینه که یه چشم تیزبین همراه هوش مصنوعی داری، و بدون اینکه از قبل فقط دنبال یه چیز باشی، هر چیزی رو با یه توضیح ساده میتونه برات پیدا کنه.
این مقالهای که راجع بهش حرف میزنیم، اومده کامل و دقیق ماجرای OVOD تو تصاویر پهپادی رو زیر و رو کرده. اول، مدلهای OVOD رو با نیازهای خاص عکسهای پهپادی تطبیق داده تا ببینیم با چه چالشهایی روبهرو هستیم. به خاطر ارتفاع متفاوت، زاویه دید عجیب و اشیاء ریزی که تو این تصاویر هستن، کار OVOD اینجا فرق داره با شناسایی معمولی اشیا تو عکسهای روزمره!
تو ادامه مقاله، یه دستهبندی منظم آورده از همه روشهای موجود OVOD برای عکسهای پهپادی (taxonomy یعنی همین دستهبندی منظمه)، و بعدش منابع دادهای مهم و دیتاستهای مرتبط رو هم معرفی کرده. دیتاست همون مجموعههای بزرگ عکسی هست که برای آموزش و آزمایش مدلهای هوش مصنوعی استفاده میشن. خیلی از این دیتاستها پر از تصاویر خاص هوایی هستن که واقعاً آموزش مدلا روشون کار میبره.
بعد که فهمیدیم چه روشهایی هست و چه دیتاستهایی داریم، مقاله رفته سراغ چالشها و مشکلات سختی که هنوز حل نشدن. مثلاً نحوه تفسیر درست توضیحات متنی تو تصاویر شلوغ اسان نیست، یا اینکه مدل اووود چطور باید توی شرایط نوری عجیب یا با وضوح پایین خوب کار کنه. این بخش یه جور «چکلیست مشکلات» حسابی برای پژوهشگراست که رو چی باید کار کنن.
در نهایت، مقاله یه نقشه راه (Roadmap یعنی همین برنامه و چشمانداز کلی تحقیقاتی) کشیده برای آینده و به همه کسایی که تازه میخوان وارد دنیای تحقیقات OVOD تو عکسهای پهپادی بشن گفته چه مسیرهایی هیجانانگیز پیش رو هست. مثالهایی که زده نشون میده شاید تو آینده نزدیک، پهپادهای خیلی هوشمند بتونن تو بحرانها یا مراقبتهای محیط زیستی چیزهایی پیدا کنن که حتی انسان هم نمیدونه دقیق باید دنبال چی بگرده!
اگه به کارای جدید و تکنولوژیهای پیشرفته علاقهمندی، پیشنهاد میکنم یه نیمنگاه به منابع معرفیشده تو مقاله بندازی. نویسندهها یه صفحه مخصوص گیتآب (https://github.com/zhouyang2002/OVOD-in-UVA-imagery) هم گذاشتن که مرتب کارهای جدید رو اونجا میذارن و آخرین آپدیتها رو میتونی اونجا ببینی.
در مجموع تحقیقهای OVOD تو پهپادها واقعاً آیندهدار و روبهرشد هست. حالا هم یه راهنمای کامل و جمعوجور داریم که به همه پژوهشگرای شجاع و حتی تازهواردها کمک میکنه سریعتر وارد ماجرا بشن و ایدههای خلاقانهشون رو عملی کنن. خلاصه اگه به دنیای هوش مصنوعی و تکنولوژی پهپاد علاقه داری، این حوزه رو حتماً دنبال کن، چون کلی اتفاق جذاب تو راهه!
منبع: +