خب، بیاین یه بحث خیلی خفن رو با هم باز کنیم! موضوع درباره مدلهای زبانی بزرگه (همون LLMها که الآن خیلی معروف شدن، مثلاً ChatGPT یا Bard و غیره) و اینکه چطور موقع آموزش دیدن مداوم روی کلی دیتای جدید، ممکنه کمکم گول بخورن و باورهاشون عوض بشه!
حالا اول بذار توضیح بدم اصلاً داستان چیه: این مدلها رو مدام با دادههای جدیدی که از اینترنت و فضای وب جمع میشه آموزش میدن، جلو میرن، حرفهایتر و بهروزتر میشن. اما یه ایراد ماجرا اینجاست: چون دادهها از جاهای مختلف و ناشناخته میان، ممکنه یک عالمه اطلاعات اشتباه یا حتی عمدی گمراهکننده (که بهش میگیم “data poisoning” یعنی آلودهکردن دادهها با اطلاعات غلط یا جعلی) لای اینا باشه.
قبلش بیشتر درباره data poisoning صحبت میکردن وقتی مدلها فقط یه بار و استاتیک (یعنی با یه دیتای ثابت) آموزش میدیدن، اما تو این تحقیق جدید اومدن سراغ اینکه اگه مدل هر بار و به طور مداوم آموزش ببینه، چقدر ممکنه تحت تأثیر این اطلاعات غلط قرار بگیره.
این قضیه رو الهام گرفتن از یه پدیده روانشناسی بامزه به اسم “illusory truth effect”. یعنی، اگه یه چیزی رو هی بشنوی – حتی اگه اشتباه باشه – کمکم برات قابلباور میشه! این دقیقاً اتفاقیه که میخواستن ببینن سر LLMها هم میتونه بیاد یا نه.
حالا چی کار کردن؟ اومدن یه فریمورک جدید به اسم “Layer of Truth” معرفی کردن. فریمورک یعنی یه چارچوب یا چهارچوب کاری که بشه راحت مثلاً مدلها رو تست کرد و چندین بار سناریوها رو روشی و منظم اجرا کرد. توی این آزمایش، مقداری داده آلوده و جعلی به صورت کنترلشده به مدل تزریق کردن و بعد در مراحل مختلف آموزش (که بهشون checkpoint میگن – یه جور توقفگاه میونه راه آموزش، واسه چک کردن پیشرفت) مدل رو بررسی کردن.
نتایجش چه جوری شد؟ جالبه بدونی حتی مقدار خیلی کم از این اطلاعات غلط، میتونه باعث شه مدل دانستههاش از واقعیت رو تغییر بده! این تغییر بهش “representational drift” میگن – یعنی مدل داره خودش رو کمکم به سمتی میبره که اطلاعات اشتباه رو درست فرض کنه.
با این روش تونستن بفهمن این اثرات توی لایههای مختلف مدل چطور دیده میشه و حتی نشون دادن وابسته به اینه که مدل بزرگ باشه یا کوچیک (model scale)، و چه جور سوالهایی ازش بپرسی (question type). یعنی مثلاً لایههای اولیه مدل خیلی حساس بودن یا مدلهای کوچیک راحتتر گول میخورن تا مدلهای خیلی گنده.
در کل حرف اصلی مقاله اینه که مدلهای زبانیای که به طور مداوم دارن آموزش میبینن میتونن درست مثل آدمها، در برابر شایعات و اطلاعات غلط تو اینترنت ضعیف باشن و اگه این ماجرا کنترل نشه، حقیقت براشون از دست میره! پس تاکید کردن که باید موقع آپدیت و آموزش این مدلها، کلی مراقب باشیم که حقیقت از دست نره و یه نظارت درست (مثلاً “monitoring of factual integrity” یعنی بررسی درست بودن اطلاعات توی فرآیند آموزش مدلها) واسه شون بذاریم.
در نتیجه: مدلها هوشمندن، ولی اگه حواسمون نباشه همونجور که ما آدمها گول میخوریم، اونا هم حسابی میتونن توی تله اطلاعات غلط بیافتن!
منبع: +