تفاوت‌های جالب مدل‌های هوش مصنوعی تو جواب دادن به سوالات علمی!

خب، بیا با هم یه نگاهی بندازیم به اینکه مدل‌های بزرگ هوش مصنوعی (Large Language Models یا همون LLMها که مدل‌هایی هستن که با دیتای خیلی زیاد آموزش دیدن و می‌تونن مثل انسان‌ها متن تولید کنن) چجوری جواب سوالات علمی رو می‌دن و اصلاً قابل اعتماد هستن یا نه؟

تو یه مطالعه جالب، پنج‌تا از معروف‌ترین مدل‌های رایگان هوش مصنوعی رو با هم مقایسه کردن: Claude 3.5 Sonnet، Gemini، ChatGPT 4o، Mistral Large 2 و Llama 3.1 70B. اینا همه مدل‌هایی هستن که الان کلی سر و صدا کردن و خیلی‌ها دارن ازشون استفاده می‌کنن.

حالا چه جوری مقایسه‌شون کردن؟ اومدن از ۱۶ تا کارشناس خبره علمی خواستن که جواب‌هایی که هر مدل به سوالات علمی می‌ده رو از نظر عمق، دقت، مرتبط بودن و شفافیت بررسی کنن. یعنی فقط این نبود ببینن مدل درست جواب می‌ده یا نه، بلکه اینکه چقدر خوب توضیح می‌ده، چقدر به موضوع ربط داره و چقدر جواب واضح و کامل داده رو هم چک کردن.

جالبیش اینجاست که Claude 3.5 Sonnet از همه بهتر امتیاز گرفت! بعدش هم Gemini خوب عمل کرد. اما بقیه مدل‌ها مثل ChatGPT 4o، Mistral Large 2 و Llama 3.1 70B تفاوت‌های قابل توجهی با هم داشتن و همیشه مثل هم خوب نبودن.

برای بهتر کردن کار مدل‌ها، اومدن از یه تکنیک به اسم RAG استفاده کردن. RAG یعنی Retrieval-Augmented Generation؛ خلاصه بخوام بگم یعنی مدل به جای اینکه تنها از دانش خودش استفاده کنه، می‌تونه کلی اطلاعات رو آنلاین جست‌وجو کنه و بعد با اون اطلاعات جواب بده؛ این باعث می‌شه دقتش بره بالاتر.

همچنین، سعی کردن فرمان‌ها یا همون Promptها رو هم بهینه‌تر بنویسن تا جواب‌ها بهتر بشه چون مدل‌ها خیلی به اینکه چطور ازشون سوال می‌پرسی، حساسن.

در کل فهمیدن که مدل‌هایی مثل Claude 3.5 Sonnet الان می‌تونن جواب علمی خوبی بدن، ولی خیلی از مدل‌های دیگه یا باید بیشتر توسعه پیدا کنن یا اینکه لازمه فرمان‌هاشون رو دقیق‌تر و هوشمندانه‌تر بنویسی تا بتونن دقیق جواب بدن. خلاصه نمی‌شه به همه‌شون یه جور اعتماد کرد.

یه نکته جالب دیگه اینکه کارشناس‌هایی که این مدل‌ها رو بررسی کردن، بعدش حس بهتری نسبت به کاربرد و قابل اعتماد بودن هوش مصنوعی پیدا کردن. یعنی دیدن که توی بعضی موارد واقعاً به درد بخورن. ولی هنوز یه سری نگرانی اخلاقی هست، مخصوصاً درباره شفافیت و افشاگری. شفافیت یعنی اینکه بدونیم مدل دقیقاً بر چه اساسی این جواب رو داده و از چه منابعی استفاده کرده.

آخرش هم باید گفت این نتایج رو باید با کمی احتیاط نگاه کرد. چون تعداد سوال‌ها محدود بوده و تو حوزه خاصی پرسیده شده و شاید نشه راحت این نتایج رو به همه موضوعات علمی تعمیم داد. یه جورایی یه مقدمه‌ست برای تحقیقات بیشتر که بفهمیم دقیقاً تا چه حد می‌تونیم روی مدل‌های هوش مصنوعی حساب کنیم.

خلاصه اگر دنبال استفاده از هوش مصنوعی واسه مسائل علمی هستی، بدون که مدل‌ها با هم فرق دارن و انتخاب درست خیلی مهمه، و حتماً همیشه یه نیم‌نگاه به بحث‌های اخلاقی و شفافیت هم داشته باش!

منبع: +