خب بچهها، این روزا مدلهای زبانی بزرگ (LLM ها) مثلاً همون هوش مصنوعیهایی که باهاشون چت میکنیم مثل ChatGPT واقعاً همه جا پیدا میشن. خیلیا بهشون اعتماد کردن و میخوان ازشون تو حوزههای حساس مثل تغذیه و سلامتی هم استفاده کنن. اما یه نکتهای وجود داره: بیشتر این اطمینانها از تستها و آزمایشهای توی آزمایشگاه میاد و نه دنیای واقعی!
حالا دقیقاً مشکل چیه؟ توی علم تغذیه، معتبرترین روش برای ثابت کردن اینکه یه چیز واقعاً جواب میده یا نه، آزمون تصادفی کنترلشده (RCT) هست. این RCT یعنی چی؟ یعنی مثلاً یه گروه رو به صورت تصادفی انتخاب میکنی، به یه گروه ازشون یه درمان جدید میدی و به گروه دیگه نه، بعد میبینی واقعاً تاثیر داشته یا نه. دانشمندای تغذیه وقتی حرف از هوش مصنوعی وسط میاد، دنبال همین آزمایشهای سفت و سخت هستن تا مطمئن بشن واقعاً کار میکنه.
خب تا الان مدلهای زبانی تو زمینه تغذیه فقط تو آزمونهای آزمایشگاهی (مثلاً همون intrinsic evaluation یعنی تست خود مدل بدون اینکه وارد زندگی واقعی بشه) خوب ظاهر شدن. اما کسی خیلی جدی این مدلها رو تو زندگی واقعی، بین آدمای عادی ارزیابی نکرده بود.
اینجا بود که یه تیم باحال اومد یه RCT واقعی راه انداخت! اومدن یه ربات چت در مورد رژیم غذایی ساختن که قبلاً بر اساس یه سری قوانین ساده کار میکرد. بعد، دو تا قابلیت مبتنی بر LLM بهش اضافه کردن: اولی، بازنویسی پیامها برای اینکه گفتگوها خستهکننده نشه و جذابتر بمونه؛ دومی هممشاوره تغذیهای با مدل زیربنایی که مخصوص این کار آموزش دیده بود (یعنی fine-tuned شد).
این آزمایش هفت هفته طول کشید و ۸۱ نفر توش شرکت کردن. اومدن دو مدل ربات رو با هم مقایسه کردن: یکی فقط نسخه ساده و قوانین محور، یکی هم همون ولی با هوش مصنوعی مدل LLM که اون دو تا قابلیت رو داشت.
چی سنجیدن؟
۱. اینکه مردم رژیم غذایی شون بهتر شد یا نه.
۲. روحیه و حال احساسیشون تغییر کرد یا نه.
۳. چقدر با ربات تعامل و انگیزه داشتن.
حالا نتیجهها شوکآور بود! با اینکه تو تستهای مقدماتی مدل LLM خیلی خوب عمل کرد (یعنی همون intrinsic evaluation که گفتم)، اما تو دنیای واقعی، این قابلیتهای مبتنی بر هوش مصنوعی باعث نشد تفاوت چشمگیری نسبت به نسخه معمولی ربات حس بشه. یعنی واقعاً خروجی قابل توجهی به دست نیومد.
خلاصه، این پژوهش نشون داد که فرق خیلی بزرگی بین تستهای داخل آزمایشگاه و تاثیر واقعی این تکنولوژیها روی زندگی مردم هست. پس اگه دوست دارین از هوش مصنوعی تو سلامتی و تغذیه استفاده بشه، باید روشهای ارزیابی واقعیتر و بینرشتهای طراحی کنیم که واقعاً به آدمها جواب بده، نه فقط رو کاغذ و تو دیتابیس!
راستی، اگه دوست داریم جزئیات بیشتر یا حتی کدها و دادههای این پژوهش رو ببینید، این لینکشونه:
https://github.com/saeshyra/diet-chatbot-trial
در کل، باید حواسمون باشه که اعتماد زیاد به AI بدون تست واقعی، ممکنه ما رو گمراه کنه – به خصوص تو زمینههایی مثل تغذیه و سلامتی که پای زندگی آدمها وسطه!
منبع: +