AutoGeTS: روشی خفن برای ساخت دیتای مصنوعی با کمک هوش مصنوعی برای بهتر کردن مدل‌های دسته‌بندی متن

اگه تا حالا با مدل‌های دسته‌بندی متن کار کرده باشی، حتماً می‌دونی یکی از بزرگ‌ترین دردسرهاش اینه که برای همه‌ی کلاس‌ها یا دسته‌های مختلف، داده کافی گیر نمیاد. خب بدون داده، مدل هم درست حسابی یاد نمی‌گیره. حالا اینجاست که مقاله‌ای که امروز می‌خوایم درباره‌ش گپ بزنیم، یه راه‌حل جالب معرفی کرده:

اسم این روش AutoGeTS هست. یکم توضیحش بدم: AutoGeTS یعنی «تولید خودکار داده متنی مصنوعی بر پایه دانش» که برای بهتر کردن دسته‌بندی متن به کار میره. خلاصه‌ش اینه که میان و به جای اینکه کلی منتظر بمونن تا کاربرا یا آدم‌ها بیان و داده‌های جدید رو جمع کنن و تک تک لیبل بزنن، از هوش مصنوعی‌هایی که بهشون میگن LLM (Large Language Models) استفاده می‌کنن.

حالا LLM یعنی چی؟ مثلاً همین ChatGPT خودمون، یه مدل زبون خیلی بزرگه که می‌تونه جمله بسازه، مطلب توضیح بده و حتی داده مصنوعی بسازه. داده مصنوعی هم یعنی داده‌ای که واقعی نیست، ولی یه جوری ساخته شده که انگار واقعیه و می‌تونه به مدل کمک کنه بیشتر یاد بگیره.

فازی که بچه‌های مقاله ساختن اینجوریه: می‌رن سراغ LLM و بهش مثال‌هایی نشون می‌دن، بعد مدل به طور خودکار انواع جدیدی از متن می‌سازه. نکته باحال اینه که هر ورودی‌ای که به مدل بدی، می‌تونه متن ساخته شده رو تغییر بده. پس اگه بتونی ورودی‌هایی پیدا کنی که خروجی‌های موثر‌تری بسازن، می‌تونی مدل دسته‌بندی‌ت رو حسابی تقویت کنی.

حالا این که کدوم ورودی‌ها بهتر جواب میدن، خودش یه چالشه. نویسنده‌های مقاله اومدن سه تا استراتژی مختلف برای جستجو و پیدا کردن ورودی‌های مناسب امتحان کردن. استراتژی یعنی روشی که باهاش سراغ اون ورودی‌ها میری.

حالا مهم‌تر از همه، یه الگوریتم ترکیبی هم ساختن که بهش میگن ensemble algorithm. این یعنی یه روش هوشمند که می‌تونه بر اساس ویژگی‌های هر کلاس (یا دسته متن‌ها)، تصمیم بگیره کدوم استراتژی از اون سه‌تا رو پیاده کنه که بهترین نتیجه رو بده. این خیلی خفنه چون باعث میشه نیازی نباشه خودت دائم تجربه کنی و بهترین راه رو پیدا کنی. این الگوریتم خودکار خودش تشخیص میده که برای هر دسته چه روشی بهترینه.

در نهایت، آزمایش‌هاشون نشون داد که این الگوریتم ترکیبی خیلی بهتر از هر کدوم از اون استراتژی‌ها به تنهایی کار می‌کنه. یعنی اگه فقط یکی از روش‌ها رو بگیری، نتیجه‌اش به خوبی این مدل ترکیبی نمیشه. اینم یعنی اگر مشکل داده کم داشتی یا دیتا سنت کافی نبود، می‌تونی با این روش کلی متن مصنوعی بسازی و دست مدل‌ت رو باز بذاری.

کلاً بخوام جمع‌بندی کنم: این مقاله نشون داد میشه با هوش مصنوعی و یه ذره خلاقیت، مشکل کمبود داده رو توی مسائل دسته‌بندی متن برطرف کرد. فقط کافیه به مدل زبونی مثل ChatGPT ورودی‌های درست بدی و کل فرآیند رو خودکار کنی. خلاصه، تو آینده احتمالاً خیلی بیشتر از این جور مدل‌ها و روش‌ها می‌شنویم!

منبع: +