بذارید یه داستان از دنیای فناوری براتون تعریف کنم که هم خفن و آیندهداره، هم مشکلات خودش رو داره و هم یه راهحل جدید براش پیدا شده! موضوع بحثمون میشه Semantic Communication یا همون SemCom. خیلی خلاصه، SemCom یعنی نوعی ارتباط که سیستمها فقط داده خام رد و بدل نمیکنن، بلکه معنی و مفهوم رو به هم منتقل میکنن. مثلاً به جای اینکه فقط یه جمله بفرستن، دقیقاً اون مفهومی رو که میخوان طرف مقابل بفهمه ارسال میکنن، تازه با کمک هوش مصنوعی!
تا چند سال پیش همچین چیزی فقط رویا بود، ولی الان با رشد شگفتانگیز هوش مصنوعی و مخصوصاً مدلهای زبانی بزرگ (LLMها)، مثل ChatGPT و امثالهم، خیلی جدی پیادهسازی شده. LLMها همون مدلهای قویای هستن که میتونن متن تولید کنن، سوال جواب بدن و حتی معنی مفاهیم رو درک کنن.
حالا اینجا یه چیزی به اسم Semantic Knowledge Base (پایگاه دانش معنایی) داریم که خلاصه یعنی دیتابیسهایی که پر از اطلاعات و مفهوم تخصصی شدن. این پایگاههای دانش باید بین چندین سیستم مختلف، که هر کدوم یه جایی هستن، هماهنگ بشن. یعنی اطلاعاتشون یکی باشه و همیشه آپدیت بمونن.
حالا ممکنه بگید خب چه کاریه؟ یکی از راههای محبوب الان اینه که مدلها رو به صورت Federated یاد بگیریم و بهروز کنیم. Federated learning یعنی مدلا به جای اینکه همه دادهها رو بفرستن به یه سرور مرکزی، هر کدوم روی دادههای خودشون تمرین میکنن، بعد فقط نتایج رو با هم به اشتراک میذارن. این طوری هم حریم شخصی رعایت میشه، هم سرعتش بالاتره. اما…
مشکل از همینجا شروع میشه! چون این مدل هم میتونه لو رفتن اطلاعات (Privacy leakage) رو داشته باشه، هم با Poisoning Attack روبهرو بشه. Poisoning Attack یعنی یکی وسط کار خودش رو جا بزنه و مدلها رو با داده یا پارامتر خراب آلوده کنه، عملاً بقیه رو به اشتباه بندازه. از اون طرف، Privacy leakage یعنی اطلاعات حساس لو بره.
حالا محققها اومدن یه راهحل توپ پیشنهاد دادن به اسم SecFFT که مخفف Secure Federated Fine-Tuning هست. این روش سه کار اساسی انجام میده:
اول، توی SecFFT از Homomorphic Encryption استفاده میشه. این یه جور رمزنگاری عجیب و باحاله که میشه با داده رمزشده هم عملیات انجام داد، بدون اینکه نیاز باشه داده رو باز کنیم. یعنی مدلسازی و هماهنگسازی هم امن میشه و هم کسی نمیتونه دیتا رو بخونه.
دوم، برای مقابله با حملات Poisoning، اومدن یه سیستم اعتبارسنجی (Access Control) روی باقیمانده (Residual-based) گذاشتن. یعنی هر کی بخواد توی بروزرسانی دانش شرکت کنه، اگر پارامترهاش خیلی پرت باشه (نشونه خرابکاری یا بیکیفیت بودن)، اجازه ورود به جمع رو نداره! تازه اینو با Hash-based Message Authentication Code (کدی برای اطمینان از صحت پیام) ترکیب کردن که دیگه همه چی رو محکمتر بکنه.
سوم، یه استراتژی به اسم Self-adaptive Local Updating ساختن که خلاصهاش اینه: طرفهایی که مدلشون خراب یا آلوده شده ضررش به بقیه نرسه. این روش باعث میشه حتی اگه یکی خرابکاری کنه، مدل کل مجموعه آسیب جدی نبینه.
ته این داستان هم با آزمایشها ثابت کردن که SecFFT روی چهار دیتاست مختلف از GLUE Benchmark (یه سری آزمون استاندارد سنجش مدلهای زبانی) عملکردش تقریباً مثل حالت اوریجینال و عالی Federated LoRA هست (تقریباً 98.4 درصد). با این تفاوت که امنیت و اطمینان دادهها واقعاً بالاتر رفته و هزینه اضافهاش نسبتاً منطقی حساب شده.
پس اگر جایی حرفی از هماهنگ کردن دیتا و مدلهای هوش مصنوعی بین چند سیستم شد، بدونید این راهحل SecFFT حسابی میتونه جریان رو تغییر بده! هم امنیت داره، هم هوشمندانه آدمای مخرب رو بیرون نگه میداره، هم تقریباً هیچ افت کیفیتی توی کار مدلش حس نمیشه.
منبع: +