یه لایه حقیقت: ببین چطور مدل‌های زبانی با آموزش مداوم گول می‌خورن!

خب، بیاین یه بحث خیلی خفن رو با هم باز کنیم! موضوع درباره مدل‌های زبانی بزرگه (همون LLMها که الآن خیلی معروف شدن، مثلاً ChatGPT یا Bard و غیره) و اینکه چطور موقع آموزش دیدن مداوم روی کلی دیتای جدید، ممکنه کم‌کم گول بخورن و باورهاشون عوض بشه!

حالا اول بذار توضیح بدم اصلاً داستان چیه: این مدل‌ها رو مدام با داده‌های جدیدی که از اینترنت و فضای وب جمع میشه آموزش میدن، جلو میرن، حرفه‌ای‌تر و به‌روزتر میشن. اما یه ایراد ماجرا اینجاست: چون داده‌ها از جاهای مختلف و ناشناخته میان، ممکنه یک عالمه اطلاعات اشتباه یا حتی عمدی گمراه‌کننده (که بهش میگیم “data poisoning” یعنی آلوده‌کردن داده‌ها با اطلاعات غلط یا جعلی) لای اینا باشه.

قبلش بیشتر درباره data poisoning صحبت می‌کردن وقتی مدل‌ها فقط یه بار و استاتیک (یعنی با یه دیتای ثابت) آموزش می‌دیدن، اما تو این تحقیق جدید اومدن سراغ اینکه اگه مدل هر بار و به طور مداوم آموزش ببینه، چقدر ممکنه تحت تأثیر این اطلاعات غلط قرار بگیره.

این قضیه رو الهام گرفتن از یه پدیده روانشناسی بامزه به اسم “illusory truth effect”. یعنی، اگه یه چیزی رو هی بشنوی – حتی اگه اشتباه باشه – کم‌کم برات قابل‌باور میشه! این دقیقاً اتفاقیه که می‌خواستن ببینن سر LLMها هم می‌تونه بیاد یا نه.

حالا چی کار کردن؟ اومدن یه فریم‌ورک جدید به اسم “Layer of Truth” معرفی کردن. فریم‌ورک یعنی یه چارچوب یا چهارچوب کاری که بشه راحت مثلاً مدل‌ها رو تست کرد و چندین بار سناریوها رو روشی و منظم اجرا کرد. توی این آزمایش، مقداری داده آلوده و جعلی به صورت کنترل‌شده به مدل تزریق کردن و بعد در مراحل مختلف آموزش (که بهشون checkpoint میگن – یه جور توقف‌گاه میونه راه آموزش، واسه چک کردن پیشرفت) مدل رو بررسی کردن.

نتایجش چه جوری شد؟ جالبه بدونی حتی مقدار خیلی کم از این اطلاعات غلط، می‌تونه باعث شه مدل دانسته‌هاش از واقعیت رو تغییر بده! این تغییر بهش “representational drift” میگن – یعنی مدل داره خودش رو کم‌کم به سمتی می‌بره که اطلاعات اشتباه رو درست فرض کنه.

با این روش تونستن بفهمن این اثرات توی لایه‌های مختلف مدل چطور دیده میشه و حتی نشون دادن وابسته به اینه که مدل بزرگ باشه یا کوچیک (model scale)، و چه جور سوال‌هایی ازش بپرسی (question type). یعنی مثلاً لایه‌های اولیه مدل خیلی حساس بودن یا مدل‌های کوچیک راحت‌تر گول می‌خورن تا مدل‌های خیلی گنده.

در کل حرف اصلی مقاله اینه که مدل‌های زبانی‌ای که به طور مداوم دارن آموزش می‌بینن می‌تونن درست مثل آدم‌ها، در برابر شایعات و اطلاعات غلط تو اینترنت ضعیف باشن و اگه این ماجرا کنترل نشه، حقیقت براشون از دست میره! پس تاکید کردن که باید موقع آپدیت و آموزش این مدل‌ها، کلی مراقب باشیم که حقیقت از دست نره و یه نظارت درست (مثلاً “monitoring of factual integrity” یعنی بررسی درست بودن اطلاعات توی فرآیند آموزش مدل‌ها) واسه شون بذاریم.

در نتیجه: مدل‌ها هوشمندن، ولی اگه حواسمون نباشه همون‌جور که ما آدم‌ها گول می‌خوریم، اونا هم حسابی می‌تونن توی تله اطلاعات غلط بیافتن!

منبع: +