چطور یه سیستم جواب‌گوی تصویری چندمرحله‌ای، زندگی آدمای دچار مشکلات بینایی رو آسون‌تر می‌کنه!

اگه دقت کرده باشی، آدمایی که مشکل بینایی دارن – یعنی دیدشون ضعیفه یا حتی چیزی نمی‌بینن – واقعاً با مشکلات زیادی رو‌به‌رو میشن، مخصوصاً وقتی پای اطلاعات تصویری وسط باشه. حالا این فقط مشکل یکی دو نفر نیست! تقریباً ۲.۲ میلیارد نفر تو دنیا به نوعی دچار ناتوانی‌های بینایی هستن، چه خیلی کم و چه کامل!

خیلی وقتا این آدم‌ها نمی‌تونن تصاویر رو ببینن و طبیعتاً پرسیدن درباره اون تصویر یا فهمیدن محتواش خیلی سخته. اینجاهاست که یه ابزار عجیب‌غریب به اسم VQA میاد وسط؛ VQA یعنی Visual Question Answering، یا همون «پاسخ‌ به سوال تصویری» که با هوش مصنوعی کار می‌کنه و براش توضیح می‌ده تصویر چیه و به سوالات مربوط به اون جواب می‌ده.

توی این مقاله، یه سیستم خفن و جدید طراحی شده که چندمرحله‌ایه و مخصوص آدمای با ناتوانی بیناییه. ایده اصلی اینه که بجای یه مدل ساده، از چند مدل VQA مختلف استفاده بشه تا بهترین جواب داده بشه. تازه این فقط این نیست: سیستم دو تا لایه داره – یعنی دو مرحله مختلف پردازش.

لایه اول کارش اینه که اول سوال رو بررسی می‌کنه و تشخیص می‌ده نوع سوال چیه. مثلاً می‌فهمه سوال درباره رنگه، درباره وضعیت یه عضو خاص تو چشم، یا هر چیز دیگه. بعد تو مرحله دوم، بسته به اون نوع سوال، سوال رو می‌فرسته پیش یه مدل VQA مخصوص که همون بخش رو بهتر می‌شناسه و جواب می‌ده. اینو با یه چیزی به اسم switch function ردیف کردن، یعنی یه جور سوییچ هوشمند که خودش تشخیص می‌ده کی کدوم مدل بهتر جواب می‌ده. – به این می‌گن معماری دو سطحی یا bi-level architecture؛ یعنی همه سوال‌ها رو زورکی یه مدل دمه‌دستی جواب نمی‌ده!

حالا نتیجه‌ها چی بوده؟ جالبه بدونی که این مدل دو مرحله‌ای، دقت کل جواب گرفتن رو از بهترین سیستم‌هایی که تا الان وجود داشته، بیشتر کرده؛ از ۸۷.۴۱ درصد رسونده به ۸۸.۴۱ درصد. البته شاید بگی یک درصد کمه، ولی تو هوش مصنوعی همین یه درصد واقعاً یه پله بزرگ جلو رفتنه!

خلاصه این تحقیق نشون داده سیستم‌های VQA اگه چندلایه‌ای و چندمدلی باشن، واقعاً به آدمای دچار مشکلات بینایی کمک بیشتری می‌کنن که بتونن به اطلاعات تصویری بهتر و مفیدتری دسترسی داشته باشن. تازه محققای مقاله گفتن آینده‌اش هم احتمالاً پر از آپدیت و امتحان مدل‌ها و روش‌های مختلف‌تره تا بشه دقت رو باز هم بالاتر برد.

در کل، یه قدم حسابی به جلو برای اینکه تکنولوژی زندگی آدمای با ناتوانی بینایی رو آسون‌تر کنه، برداشته شده. به نظر تو قدم بعدی چیه؟

منبع: +