حتماً این روزها خیلی درباره مدلهای هوش مصنوعی حرف میشنوید، مخصوصاً اونایی که میتونن هم متن و هم تصویر رو بفهمن. حالا فکر کنین یه قدم جلوتر بریم و این مدلا، بجای تایپ، از طریق صدا باهاشون صحبت کنیم! چیزی که داریم روزبهروز بیشتر میبینیم توی دستیارهای صوتی و اپلیکیشنهایی که با حرف زدن کار میکنن.
بیاین یه موضوع جالب رو بررسی کنیم: «Hallucination در مدلهای هوش مصنوعی». این اصطلاح یعنی مدل یه جواب تولید کنه که با واقعیت و اطلاعات اصلی تناقض داشته باشه یا کاملاً اشتباه باشه. مثلاً اگه از هوش مصنوعی بپرسیم “تهران پایتخت کدوم کشوره؟” و اون جواب بده “آرژانتینه!”—این میشه hallucination!
تا حالا بیشتر تحقیقها و آزمایشها روی این بود که ببینن این مدلا وقتی با متن و تصویر سروکار دارن چقدر دچارش میشن. اما هنوز خیلی بررسی نکردن که اگه ورودی به جای متن، صدا باشه چی؟ یعنی کسی سؤالش رو با حرف زدن بپرسه، اونوقت چه بلای سر مدل هوش مصنوعی میاد؟
توی این مقاله، گروهی از محققان اومدن دقیقاً همینو بررسی کردن. اونا یه نسخه جدید و پیشرفته از یه ابزار آزمایشی به اسم RePOPE معرفی کردن که مخصوص سنجش خیالپردازی در مدلهای بینایی-متنی بود. توی نسخه جدیدش که بهش گفتن «RePOPE-Spk»، ورودیها رو به صورت صدا گذاشتن و جالبتر اینکه این صداها رو تحت شرایط مختلف آزمایش کردن؛ یعنی هم توی صدای تمیز و شفاف و هم توی محیطهایی که کلی سر و صدا و نویز هست.
حالا نتیجه چی شد؟ اومدن مدلهای مختلف—از نوع تجاری (یعنی همون مدلهای پولی و بسته شرکتا) و مدلهای Open Source (یعنی برنامههایی که همه میتونن کدشون رو ببینن و دستکاری کنن)—رو تست کردن. چیزی که فهمیدن این بود که مدلها وقتی سؤال رو به صورت صدا دریافت میکنن، نسبت به وقتی که سؤال تایپ میشه، خیلی بیشتر دچار خطا و جواب نادرست میشن. توی آزمایش، نرخ خطا تو شرایط صدای تمیز حدود ۳ درصد زیاد شد؛ ولی وقتی سر و صدا تو کار بود (مثلاً صدای محیط یا آدمای دیگه) این رقم تا ۲۰ درصد هم بالا میرفت! یعنی نویز حسابی مدلها رو گیج میکنه.
یه نکته دیگه هم که معلوم شد، اینه که ترتیب سؤالها و حتی طول جملات هم روی قاطی کردن مدل تأثیر داره. مثلاً اگه سؤال طولانی یا پشتسرهم باشه، شانس این که مدل جواب اشتباه بده بیشتر میشه.
حالا سؤال اینجاست که میشه جلوی این اشتباهات رو گرفت یا کمترشون کرد؟ توی تحقیق، چند تا روش رو امتحان کردن. یکی Many-Shot Prompting بود یعنی کلی مثال به مدل دادند که حسابی قلق کار دستش بیاد؛ یکی هم Chain-Of-Thought Reasoning بود—این یعنی مدل مرحله به مرحله فکر کنه و دلیل بیاره برای جوابش. ولی با این که کمی کمک کرد، اما هنوز جلوی اشتباهات زیاد رو نگرفت.
در کل محققها با این پژوهش میخواستن یه نقطه حساس رو نشون بدن که تا حالا کمتر کسی بهش توجه کرده بوده: اگه واقعاً میخوایم یه دستیار صوتی یا سیستم هوشمند مطمئن داشته باشیم، باید بدونیم که ورودی صوتی داستان رو خیلی پیچیدهتر میکنه و هنوز کلی کار مونده تا مدلها بتونن مثل وقتی که متن تایپ میکنی، دقیق و کماشتباه جواب بدن.
خلاصهاش اینه که هوش مصنوعیهای فعلی هنوز با سؤالای صوتی راحت نیستن و اگه قراره توی زندگی واقعی (مثلاً تو خونه، وسط سر و صدا) ازشون استفاده کنیم، باید مواظب این داستان باشیم و منتظر کلی پیشرفت توی این حوزه باشیم!
منبع: +