خب، بیا با هم یه نگاهی بندازیم به اینکه مدلهای بزرگ هوش مصنوعی (Large Language Models یا همون LLMها که مدلهایی هستن که با دیتای خیلی زیاد آموزش دیدن و میتونن مثل انسانها متن تولید کنن) چجوری جواب سوالات علمی رو میدن و اصلاً قابل اعتماد هستن یا نه؟
تو یه مطالعه جالب، پنجتا از معروفترین مدلهای رایگان هوش مصنوعی رو با هم مقایسه کردن: Claude 3.5 Sonnet، Gemini، ChatGPT 4o، Mistral Large 2 و Llama 3.1 70B. اینا همه مدلهایی هستن که الان کلی سر و صدا کردن و خیلیها دارن ازشون استفاده میکنن.
حالا چه جوری مقایسهشون کردن؟ اومدن از ۱۶ تا کارشناس خبره علمی خواستن که جوابهایی که هر مدل به سوالات علمی میده رو از نظر عمق، دقت، مرتبط بودن و شفافیت بررسی کنن. یعنی فقط این نبود ببینن مدل درست جواب میده یا نه، بلکه اینکه چقدر خوب توضیح میده، چقدر به موضوع ربط داره و چقدر جواب واضح و کامل داده رو هم چک کردن.
جالبیش اینجاست که Claude 3.5 Sonnet از همه بهتر امتیاز گرفت! بعدش هم Gemini خوب عمل کرد. اما بقیه مدلها مثل ChatGPT 4o، Mistral Large 2 و Llama 3.1 70B تفاوتهای قابل توجهی با هم داشتن و همیشه مثل هم خوب نبودن.
برای بهتر کردن کار مدلها، اومدن از یه تکنیک به اسم RAG استفاده کردن. RAG یعنی Retrieval-Augmented Generation؛ خلاصه بخوام بگم یعنی مدل به جای اینکه تنها از دانش خودش استفاده کنه، میتونه کلی اطلاعات رو آنلاین جستوجو کنه و بعد با اون اطلاعات جواب بده؛ این باعث میشه دقتش بره بالاتر.
همچنین، سعی کردن فرمانها یا همون Promptها رو هم بهینهتر بنویسن تا جوابها بهتر بشه چون مدلها خیلی به اینکه چطور ازشون سوال میپرسی، حساسن.
در کل فهمیدن که مدلهایی مثل Claude 3.5 Sonnet الان میتونن جواب علمی خوبی بدن، ولی خیلی از مدلهای دیگه یا باید بیشتر توسعه پیدا کنن یا اینکه لازمه فرمانهاشون رو دقیقتر و هوشمندانهتر بنویسی تا بتونن دقیق جواب بدن. خلاصه نمیشه به همهشون یه جور اعتماد کرد.
یه نکته جالب دیگه اینکه کارشناسهایی که این مدلها رو بررسی کردن، بعدش حس بهتری نسبت به کاربرد و قابل اعتماد بودن هوش مصنوعی پیدا کردن. یعنی دیدن که توی بعضی موارد واقعاً به درد بخورن. ولی هنوز یه سری نگرانی اخلاقی هست، مخصوصاً درباره شفافیت و افشاگری. شفافیت یعنی اینکه بدونیم مدل دقیقاً بر چه اساسی این جواب رو داده و از چه منابعی استفاده کرده.
آخرش هم باید گفت این نتایج رو باید با کمی احتیاط نگاه کرد. چون تعداد سوالها محدود بوده و تو حوزه خاصی پرسیده شده و شاید نشه راحت این نتایج رو به همه موضوعات علمی تعمیم داد. یه جورایی یه مقدمهست برای تحقیقات بیشتر که بفهمیم دقیقاً تا چه حد میتونیم روی مدلهای هوش مصنوعی حساب کنیم.
خلاصه اگر دنبال استفاده از هوش مصنوعی واسه مسائل علمی هستی، بدون که مدلها با هم فرق دارن و انتخاب درست خیلی مهمه، و حتماً همیشه یه نیمنگاه به بحثهای اخلاقی و شفافیت هم داشته باش!
منبع: +