خب بچهها، بذارین براتون یه تحقیق جالب رو خیلی رُک و دوستونه توضیح بدم! موضوعش اینه که چجوری بعضی تنظیمات مدلهای زبون بزرگ یا همون LLMها (یعنی اون هوش مصنوعیهایی که میتونن مثل انسان یا حتی بهتر متن تولید کنن) باعث میشه ارزیابیهاشون به نمره دادن ادما نزدیکتر یا دورتر بشه.
ماجرا از این قراره که اومدن تاثیر سه چیز رو روی این هوش مصنوعیها بررسی کردن:
- اندازه مدل: یعنی همون چند هزار یا چند میلیارد پارامتری بودن مدل. هرچی مدل بزرگتر باشه، معمولا باهوشتره و بهتر میفهمه!
- دمای مدل (Temperature): این یه پارامتر فنیه که تعیین میکنه مدل چقدر خلاقانه یا محافظهکار جواب بده. دما (Temperature) پایین یعنی مدل فقط جوابهایی رو که مطمئنه میده، دمای بالا یعنی عجیبتر و خلاقانهتر جواب میده.
- پرامپت استایل (Prompt Style): پرامپت همون متنیه که ما به مدل میدیم تا جواب بده. مثلا اگه بهش بگیم یه داستان بامزه تعریف کن یا بگیم یه جواب رسمی بده، سبک پرامپتمون فرق داره.
حالا اینا چی رو بررسی کردن؟
اصل داستان اینه که چقدر نمرهای که این مدلها (LLMها) به یه موضوع میدن، با نمرهای که خود آدمها میدن مشابه میشه. مخصوصاً توی یک حوزه خیلی حساس، یعنی ارزیابی مهارتهای بالینی (Clinical Reasoning Skills) — یعنی همون مهارتهایی که پزشکها دارن واسه اینکه مشکل مریض رو بفهمن و درست تصمیم بگیرن.
نتیجه شون چی شد؟
مهمترین چیزی که خودش رو نشون داده، اندازه مدل بود! یعنی هرچی مدل بزرگتر باشه (یه جورایی انگار مغزش بزرگتره)، نمرهدهیاش به آدمیزادها نزدیکتر میشه. بقیه پارامترها هم تاثیر داشتن، اما اندازه مدل از همه پررنگتر بود.
یه پیام مهم این تحقیق هم اینه که گفته اگر بخواید واقعا بفهمید این هوش مصنوعیها چقدر رفتار و قضاوتشون به آدمها نزدیکه یا نه، باید حوصله به خرج بدین و درست و حسابی توی سطوح مختلف بررسیشون کنید—not فقط یک مدل یا یک تنظیم!
خلاصه اگر گاهی میبینین هوش مصنوعی مثل آدم نظر میده (یا بعضی وقتا فرق دارن)، یکی از دلایلش همینه که اندازه مدل، دمای مدل و سبک پرامپت به شدت روشون اثر میذاره. پس دفعه بعد که دیدی یه مدل هوش مصنوعی عجب جوابی داد یا خیلی عجیب نمره داد، بدون طبق این تحقیق چیزای زیادی پشت پردهان که میتونن نتیجه رو تغییر بدن!
منبع: +