اگه دقت کرده باشی، آدمایی که مشکل بینایی دارن – یعنی دیدشون ضعیفه یا حتی چیزی نمیبینن – واقعاً با مشکلات زیادی روبهرو میشن، مخصوصاً وقتی پای اطلاعات تصویری وسط باشه. حالا این فقط مشکل یکی دو نفر نیست! تقریباً ۲.۲ میلیارد نفر تو دنیا به نوعی دچار ناتوانیهای بینایی هستن، چه خیلی کم و چه کامل!
خیلی وقتا این آدمها نمیتونن تصاویر رو ببینن و طبیعتاً پرسیدن درباره اون تصویر یا فهمیدن محتواش خیلی سخته. اینجاهاست که یه ابزار عجیبغریب به اسم VQA میاد وسط؛ VQA یعنی Visual Question Answering، یا همون «پاسخ به سوال تصویری» که با هوش مصنوعی کار میکنه و براش توضیح میده تصویر چیه و به سوالات مربوط به اون جواب میده.
توی این مقاله، یه سیستم خفن و جدید طراحی شده که چندمرحلهایه و مخصوص آدمای با ناتوانی بیناییه. ایده اصلی اینه که بجای یه مدل ساده، از چند مدل VQA مختلف استفاده بشه تا بهترین جواب داده بشه. تازه این فقط این نیست: سیستم دو تا لایه داره – یعنی دو مرحله مختلف پردازش.
لایه اول کارش اینه که اول سوال رو بررسی میکنه و تشخیص میده نوع سوال چیه. مثلاً میفهمه سوال درباره رنگه، درباره وضعیت یه عضو خاص تو چشم، یا هر چیز دیگه. بعد تو مرحله دوم، بسته به اون نوع سوال، سوال رو میفرسته پیش یه مدل VQA مخصوص که همون بخش رو بهتر میشناسه و جواب میده. اینو با یه چیزی به اسم switch function ردیف کردن، یعنی یه جور سوییچ هوشمند که خودش تشخیص میده کی کدوم مدل بهتر جواب میده. – به این میگن معماری دو سطحی یا bi-level architecture؛ یعنی همه سوالها رو زورکی یه مدل دمهدستی جواب نمیده!
حالا نتیجهها چی بوده؟ جالبه بدونی که این مدل دو مرحلهای، دقت کل جواب گرفتن رو از بهترین سیستمهایی که تا الان وجود داشته، بیشتر کرده؛ از ۸۷.۴۱ درصد رسونده به ۸۸.۴۱ درصد. البته شاید بگی یک درصد کمه، ولی تو هوش مصنوعی همین یه درصد واقعاً یه پله بزرگ جلو رفتنه!
خلاصه این تحقیق نشون داده سیستمهای VQA اگه چندلایهای و چندمدلی باشن، واقعاً به آدمای دچار مشکلات بینایی کمک بیشتری میکنن که بتونن به اطلاعات تصویری بهتر و مفیدتری دسترسی داشته باشن. تازه محققای مقاله گفتن آیندهاش هم احتمالاً پر از آپدیت و امتحان مدلها و روشهای مختلفتره تا بشه دقت رو باز هم بالاتر برد.
در کل، یه قدم حسابی به جلو برای اینکه تکنولوژی زندگی آدمای با ناتوانی بینایی رو آسونتر کنه، برداشته شده. به نظر تو قدم بعدی چیه؟
منبع: +