وقتی مدل‌های هوش مصنوعی با سؤال صوتی گیج میشن! (و چرا صدا کار رو سخت‌تر می‌کنه!)

حتماً این روزها خیلی درباره مدل‌های هوش مصنوعی حرف می‌شنوید، مخصوصاً اونایی که می‌تونن هم متن و هم تصویر رو بفهمن. حالا فکر کنین یه قدم جلوتر بریم و این مدلا، بجای تایپ، از طریق صدا باهاشون صحبت کنیم! چیزی که داریم روزبه‌روز بیشتر می‌بینیم توی دستیارهای صوتی و اپلیکیشن‌هایی که با حرف زدن کار می‌کنن.

بیاین یه موضوع جالب رو بررسی کنیم: «Hallucination در مدل‌های هوش مصنوعی». این اصطلاح یعنی مدل یه جواب تولید کنه که با واقعیت و اطلاعات اصلی تناقض داشته باشه یا کاملاً اشتباه باشه. مثلاً اگه از هوش مصنوعی بپرسیم “تهران پایتخت کدوم کشوره؟” و اون جواب بده “آرژانتینه!”—این میشه hallucination!

تا حالا بیشتر تحقیق‌ها و آزمایش‌ها روی این بود که ببینن این مدلا وقتی با متن و تصویر سروکار دارن چقدر دچارش می‌شن. اما هنوز خیلی بررسی نکردن که اگه ورودی به جای متن، صدا باشه چی؟ یعنی کسی سؤالش رو با حرف زدن بپرسه، اون‌وقت چه بلای سر مدل هوش مصنوعی میاد؟

توی این مقاله، گروهی از محققان اومدن دقیقاً همینو بررسی کردن. اونا یه نسخه جدید و پیشرفته از یه ابزار آزمایشی به اسم RePOPE معرفی کردن که مخصوص سنجش خیال‌پردازی در مدل‌های بینایی-متنی بود. توی نسخه جدیدش که بهش گفتن «RePOPE-Spk»، ورودی‌ها رو به صورت صدا گذاشتن و جالب‌تر اینکه این صداها رو تحت شرایط مختلف آزمایش کردن؛ یعنی هم توی صدای تمیز و شفاف و هم توی محیط‌هایی که کلی سر و صدا و نویز هست.

حالا نتیجه چی شد؟ اومدن مدل‌های مختلف—از نوع تجاری (یعنی همون مدل‌های پولی و بسته شرکتا) و مدل‌های Open Source (یعنی برنامه‌هایی که همه می‌تونن کدشون رو ببینن و دستکاری کنن)—رو تست کردن. چیزی که فهمیدن این بود که مدل‌ها وقتی سؤال رو به صورت صدا دریافت می‌کنن، نسبت به وقتی که سؤال تایپ میشه، خیلی بیشتر دچار خطا و جواب نادرست می‌شن. توی آزمایش، نرخ خطا تو شرایط صدای تمیز حدود ۳ درصد زیاد شد؛ ولی وقتی سر و صدا تو کار بود (مثلاً صدای محیط یا آدمای دیگه) این رقم تا ۲۰ درصد هم بالا می‌رفت! یعنی نویز حسابی مدل‌ها رو گیج می‌کنه.

یه نکته دیگه هم که معلوم شد، اینه که ترتیب سؤال‌ها و حتی طول جملات هم روی قاطی کردن مدل تأثیر داره. مثلاً اگه سؤال طولانی یا پشت‌سرهم باشه، شانس این که مدل جواب اشتباه بده بیشتر میشه.

حالا سؤال اینجاست که میشه جلوی این اشتباهات رو گرفت یا کمترشون کرد؟ توی تحقیق، چند تا روش رو امتحان کردن. یکی Many-Shot Prompting بود یعنی کلی مثال به مدل دادند که حسابی قلق کار دستش بیاد؛ یکی هم Chain-Of-Thought Reasoning بود—این یعنی مدل مرحله به مرحله فکر کنه و دلیل بیاره برای جوابش. ولی با این که کمی کمک کرد، اما هنوز جلوی اشتباهات زیاد رو نگرفت.

در کل محقق‌ها با این پژوهش می‌خواستن یه نقطه حساس رو نشون بدن که تا حالا کمتر کسی بهش توجه کرده بوده: اگه واقعاً می‌خوایم یه دستیار صوتی یا سیستم هوشمند مطمئن داشته باشیم، باید بدونیم که ورودی صوتی داستان رو خیلی پیچیده‌تر می‌کنه و هنوز کلی کار مونده تا مدل‌ها بتونن مثل وقتی که متن تایپ می‌کنی، دقیق و کم‌اشتباه جواب بدن.

خلاصه‌اش اینه که هوش مصنوعی‌های فعلی هنوز با سؤالای صوتی راحت نیستن و اگه قراره توی زندگی واقعی (مثلاً تو خونه، وسط سر و صدا) ازشون استفاده کنیم، باید مواظب این داستان باشیم و منتظر کلی پیشرفت توی این حوزه باشیم!

منبع: +