هرچی درباره ارزش‌گذاری و انتخاب داده‌ها تو بازار مدل‌های فدره بدونی لازمه!

Fall Back

امروزه با پیشرفت هوش مصنوعی (همون AI خودمون)، بازارهایی درست شدن که مردم و شرکت‌ها می‌تونن دیتاهاشون رو با هم رد و بدل کنن. این بازارها حسابی مهم شدن چون باعث میشن دیتاها بیشتر دست به دست بشه و استفاده از داده‌ها راحت‌تر بشه. تازه، یکی دیگه از خوبی‌هاش اینه که هر کسی صاحب داده هست، راحت می‌تونه رد دیتاش رو بگیره و بفهمه کجاها مصرف شده.

حالا یه موضوع جالب که تو این بازارها حسابی سر زبون‌هاست، اینه که چطور میشه یه مدل (مثلاً یه مدل یادگیری ماشین یا هوش مصنوعی) ساخت که هم از دیتاهای مختلف حسابی استفاده کنه و هم حواسش به حریم خصوصی داده‌ها باشه؟ اینجاست که Federated Learning یا همون یادگیری فدره خیلی به کار میاد. یادگیری فدره یعنی چی؟ یعنی مدل ما بدون اینکه لازم باشه همه دیتای جدا جدا تو یه جا جمع بشه، می‌تونه با داده‌های مختلف از چند تا محل مختلف یاد بگیره و آموزش ببینه، اما داده‌ها همون‌جوری سر جاشون بمونن، پس خیالمون از بابت Privacy راحته!

ولی خب همیشه همه‌چی گل و بلبل نیست! یکی از سختی‌هاش اینه که چطور بفهمیم کدوم دیتا بهتره و ارزش بیشتری برای آموزش داره؟ چون دیتاها از جاها و جنس‌های مختلف میان (یعنی Heterogeneous Sources، یعنی منابع مختلف و متنوع داده)، ارزش‌گذاری و انتخاب کردن داده‌ها واسه مدل فدره واقعاً سخته.

حالا توی این مقاله اومدن یه راه‌حل توپ پیشنهاد دادن که با استفاده از یه چیزی به اسم “Wasserstein-based estimator” کار می‌کنه. این عبارت شاید عجیب باشه، ولی خلاصه‌اش اینه: یه جور الگوریتم برای تخمین زدن فاصله بین توزیع‌های مختلف داده، که خیلی بهتر از روش‌های قدیمی جواب میده. تازه این روش خیلی با Privacy دوست هست، چون واسه اینکه بفهمه داده‌ها چه فرقی با هم دارن لازم نیست اصل دیتای همه رو ببینه؛ فقط یه جور تخمین پراکنده از فاصله Wasserstein می‌زنه، اونم بدون اینکه به داده خام دسترسی داشته باشه. مواظب حریم خصوصی داده‌هاست دیگه!

یکی دیگه از نکات باحال این مقاله اینه که از قوانینی به اسم “Neural Scaling Law” استفاده می‌کنن. این قانون یه مدل ریاضی ساده‌ست که پیش‌بینی می‌کنه اگر به مدل دیتاهای بیشتری بدیم، چه جوری کاراییش بهتر میشه. پس لازم نیست از اول تا آخر یه مدل بزرگ رو کامل آموزش بدن تا بفهمن کدوم داده خوبه – با استفاده از این قانون، زود می‌فهمن و کلی در زمان و هزینه صرفه‌جویی میشه.

نویسنده‌های این مقاله اومدن این فریم‌ورک (چارچوب) رو روی کلی مثال مختلف امتحان کردن – مثلاً روی دیتاست‌هایی که برچسب‌هاشون عوض شده یا حتی بی‌برچسب بودن (اگه نمی‌دونین، Label skew یعنی داده‌هاش همون جنس برچسب رو زیاد و کم دارن، Mislabeled یعنی برچسب داده‌ها اشتباهی‌ان، و Unlabeled هم که اصلاً برچسب نداره!). نتیجه چی شده؟ همیشه تونستن ترکیب‌های خوبی پیدا کنن که مدل با اون داده‌ها حسابی جواب بده! یعنی دیگه از این به بعد تو بازار مدل‌های فدره، انتخاب داده راحت‌تر، مطمئن‌تر و قابل اعتمادتر میشه.

جمع‌بندی ماجرا اینکه با این روش جدید، دیگه هر کسی تو بازار مدل‌های مبتنی بر یادگیری فدره می‌تونه راحت بفهمه کدوم داده‌ها ارزش بیشتری دارن و واسه آموزش عالی‌ان – اونم بدون اینکه نگران امنیت و حریم خصوصی باشه. خلاصه، اگه می‌خوای تو بازار داد‌ه‌های هوش مصنوعی بهتر بازی کنی، این ایده‌ها کارت رو حسابی راه می‌ندازه!

منبع: +