وقتی مدل‌های زبانی بزرگ تو تغذیه به کار نمیان! تجربه واقعی با ربات چت

Fall Back

خب بچه‌ها، این روزا مدل‌های زبانی بزرگ (LLM ها) مثلاً همون هوش مصنوعی‌هایی که باهاشون چت می‌کنیم مثل ChatGPT واقعاً همه جا پیدا میشن. خیلیا بهشون اعتماد کردن و می‌خوان ازشون تو حوزه‌های حساس مثل تغذیه و سلامتی هم استفاده کنن. اما یه نکته‌ای وجود داره: بیشتر این اطمینان‌ها از تست‌ها و آزمایش‌های توی آزمایشگاه میاد و نه دنیای واقعی!

حالا دقیقاً مشکل چیه؟ توی علم تغذیه، معتبرترین روش برای ثابت کردن اینکه یه چیز واقعاً جواب میده یا نه، آزمون تصادفی کنترل‌شده (RCT) هست. این RCT یعنی چی؟ یعنی مثلاً یه گروه رو به صورت تصادفی انتخاب می‌کنی، به یه گروه ازشون یه درمان جدید می‌دی و به گروه دیگه نه، بعد می‌بینی واقعاً تاثیر داشته یا نه. دانشمندای تغذیه وقتی حرف از هوش مصنوعی وسط میاد، دنبال همین آزمایش‌های سفت و سخت هستن تا مطمئن بشن واقعاً کار می‌کنه.

خب تا الان مدل‌های زبانی تو زمینه تغذیه فقط تو آزمون‌های آزمایشگاهی (مثلاً همون intrinsic evaluation یعنی تست خود مدل بدون اینکه وارد زندگی واقعی بشه) خوب ظاهر شدن. اما کسی خیلی جدی این مدل‌ها رو تو زندگی واقعی، بین آدمای عادی ارزیابی نکرده بود.

اینجا بود که یه تیم باحال اومد یه RCT واقعی راه انداخت! اومدن یه ربات چت در مورد رژیم غذایی ساختن که قبلاً بر اساس یه سری قوانین ساده کار می‌کرد. بعد، دو تا قابلیت مبتنی بر LLM بهش اضافه کردن: اولی، بازنویسی پیام‌ها برای اینکه گفتگوها خسته‌کننده نشه و جذاب‌تر بمونه؛ دومی هممشاوره تغذیه‌ای با مدل زیربنایی که مخصوص این کار آموزش دیده بود (یعنی fine-tuned شد).

این آزمایش هفت هفته طول کشید و ۸۱ نفر توش شرکت کردن. اومدن دو مدل ربات رو با هم مقایسه کردن: یکی فقط نسخه ساده و قوانین محور، یکی هم همون ولی با هوش مصنوعی مدل LLM که اون دو تا قابلیت رو داشت.

چی سنجیدن؟
۱. اینکه مردم رژیم غذایی شون بهتر شد یا نه.
۲. روحیه و حال احساسی‌شون تغییر کرد یا نه.
۳. چقدر با ربات تعامل و انگیزه داشتن.

حالا نتیجه‌ها شوک‌آور بود! با اینکه تو تست‌های مقدماتی مدل LLM خیلی خوب عمل کرد (یعنی همون intrinsic evaluation که گفتم)، اما تو دنیای واقعی، این قابلیت‌های مبتنی بر هوش مصنوعی باعث نشد تفاوت چشمگیری نسبت به نسخه معمولی ربات حس بشه. یعنی واقعاً خروجی قابل توجهی به دست نیومد.

خلاصه، این پژوهش نشون داد که فرق خیلی بزرگی بین تست‌های داخل آزمایشگاه و تاثیر واقعی این تکنولوژی‌ها روی زندگی مردم هست. پس اگه دوست دارین از هوش مصنوعی تو سلامتی و تغذیه استفاده بشه، باید روش‌های ارزیابی واقعی‌تر و بین‌رشته‌ای طراحی کنیم که واقعاً به آدم‌ها جواب بده، نه فقط رو کاغذ و تو دیتابیس!

راستی، اگه دوست داریم جزئیات بیشتر یا حتی کدها و داده‌های این پژوهش رو ببینید، این لینکشونه:
https://github.com/saeshyra/diet-chatbot-trial

در کل، باید حواسمون باشه که اعتماد زیاد به AI بدون تست واقعی، ممکنه ما رو گمراه کنه – به خصوص تو زمینه‌هایی مثل تغذیه و سلامتی که پای زندگی آدم‌ها وسطه!

منبع: +