امروزه با پیشرفت هوش مصنوعی (همون AI خودمون)، بازارهایی درست شدن که مردم و شرکتها میتونن دیتاهاشون رو با هم رد و بدل کنن. این بازارها حسابی مهم شدن چون باعث میشن دیتاها بیشتر دست به دست بشه و استفاده از دادهها راحتتر بشه. تازه، یکی دیگه از خوبیهاش اینه که هر کسی صاحب داده هست، راحت میتونه رد دیتاش رو بگیره و بفهمه کجاها مصرف شده.
حالا یه موضوع جالب که تو این بازارها حسابی سر زبونهاست، اینه که چطور میشه یه مدل (مثلاً یه مدل یادگیری ماشین یا هوش مصنوعی) ساخت که هم از دیتاهای مختلف حسابی استفاده کنه و هم حواسش به حریم خصوصی دادهها باشه؟ اینجاست که Federated Learning یا همون یادگیری فدره خیلی به کار میاد. یادگیری فدره یعنی چی؟ یعنی مدل ما بدون اینکه لازم باشه همه دیتای جدا جدا تو یه جا جمع بشه، میتونه با دادههای مختلف از چند تا محل مختلف یاد بگیره و آموزش ببینه، اما دادهها همونجوری سر جاشون بمونن، پس خیالمون از بابت Privacy راحته!
ولی خب همیشه همهچی گل و بلبل نیست! یکی از سختیهاش اینه که چطور بفهمیم کدوم دیتا بهتره و ارزش بیشتری برای آموزش داره؟ چون دیتاها از جاها و جنسهای مختلف میان (یعنی Heterogeneous Sources، یعنی منابع مختلف و متنوع داده)، ارزشگذاری و انتخاب کردن دادهها واسه مدل فدره واقعاً سخته.
حالا توی این مقاله اومدن یه راهحل توپ پیشنهاد دادن که با استفاده از یه چیزی به اسم “Wasserstein-based estimator” کار میکنه. این عبارت شاید عجیب باشه، ولی خلاصهاش اینه: یه جور الگوریتم برای تخمین زدن فاصله بین توزیعهای مختلف داده، که خیلی بهتر از روشهای قدیمی جواب میده. تازه این روش خیلی با Privacy دوست هست، چون واسه اینکه بفهمه دادهها چه فرقی با هم دارن لازم نیست اصل دیتای همه رو ببینه؛ فقط یه جور تخمین پراکنده از فاصله Wasserstein میزنه، اونم بدون اینکه به داده خام دسترسی داشته باشه. مواظب حریم خصوصی دادههاست دیگه!
یکی دیگه از نکات باحال این مقاله اینه که از قوانینی به اسم “Neural Scaling Law” استفاده میکنن. این قانون یه مدل ریاضی سادهست که پیشبینی میکنه اگر به مدل دیتاهای بیشتری بدیم، چه جوری کاراییش بهتر میشه. پس لازم نیست از اول تا آخر یه مدل بزرگ رو کامل آموزش بدن تا بفهمن کدوم داده خوبه – با استفاده از این قانون، زود میفهمن و کلی در زمان و هزینه صرفهجویی میشه.
نویسندههای این مقاله اومدن این فریمورک (چارچوب) رو روی کلی مثال مختلف امتحان کردن – مثلاً روی دیتاستهایی که برچسبهاشون عوض شده یا حتی بیبرچسب بودن (اگه نمیدونین، Label skew یعنی دادههاش همون جنس برچسب رو زیاد و کم دارن، Mislabeled یعنی برچسب دادهها اشتباهیان، و Unlabeled هم که اصلاً برچسب نداره!). نتیجه چی شده؟ همیشه تونستن ترکیبهای خوبی پیدا کنن که مدل با اون دادهها حسابی جواب بده! یعنی دیگه از این به بعد تو بازار مدلهای فدره، انتخاب داده راحتتر، مطمئنتر و قابل اعتمادتر میشه.
جمعبندی ماجرا اینکه با این روش جدید، دیگه هر کسی تو بازار مدلهای مبتنی بر یادگیری فدره میتونه راحت بفهمه کدوم دادهها ارزش بیشتری دارن و واسه آموزش عالیان – اونم بدون اینکه نگران امنیت و حریم خصوصی باشه. خلاصه، اگه میخوای تو بازار دادههای هوش مصنوعی بهتر بازی کنی، این ایدهها کارت رو حسابی راه میندازه!
منبع: +