اگه تا حالا با مدلهای دستهبندی متن کار کرده باشی، حتماً میدونی یکی از بزرگترین دردسرهاش اینه که برای همهی کلاسها یا دستههای مختلف، داده کافی گیر نمیاد. خب بدون داده، مدل هم درست حسابی یاد نمیگیره. حالا اینجاست که مقالهای که امروز میخوایم دربارهش گپ بزنیم، یه راهحل جالب معرفی کرده:
اسم این روش AutoGeTS هست. یکم توضیحش بدم: AutoGeTS یعنی «تولید خودکار داده متنی مصنوعی بر پایه دانش» که برای بهتر کردن دستهبندی متن به کار میره. خلاصهش اینه که میان و به جای اینکه کلی منتظر بمونن تا کاربرا یا آدمها بیان و دادههای جدید رو جمع کنن و تک تک لیبل بزنن، از هوش مصنوعیهایی که بهشون میگن LLM (Large Language Models) استفاده میکنن.
حالا LLM یعنی چی؟ مثلاً همین ChatGPT خودمون، یه مدل زبون خیلی بزرگه که میتونه جمله بسازه، مطلب توضیح بده و حتی داده مصنوعی بسازه. داده مصنوعی هم یعنی دادهای که واقعی نیست، ولی یه جوری ساخته شده که انگار واقعیه و میتونه به مدل کمک کنه بیشتر یاد بگیره.
فازی که بچههای مقاله ساختن اینجوریه: میرن سراغ LLM و بهش مثالهایی نشون میدن، بعد مدل به طور خودکار انواع جدیدی از متن میسازه. نکته باحال اینه که هر ورودیای که به مدل بدی، میتونه متن ساخته شده رو تغییر بده. پس اگه بتونی ورودیهایی پیدا کنی که خروجیهای موثرتری بسازن، میتونی مدل دستهبندیت رو حسابی تقویت کنی.
حالا این که کدوم ورودیها بهتر جواب میدن، خودش یه چالشه. نویسندههای مقاله اومدن سه تا استراتژی مختلف برای جستجو و پیدا کردن ورودیهای مناسب امتحان کردن. استراتژی یعنی روشی که باهاش سراغ اون ورودیها میری.
حالا مهمتر از همه، یه الگوریتم ترکیبی هم ساختن که بهش میگن ensemble algorithm. این یعنی یه روش هوشمند که میتونه بر اساس ویژگیهای هر کلاس (یا دسته متنها)، تصمیم بگیره کدوم استراتژی از اون سهتا رو پیاده کنه که بهترین نتیجه رو بده. این خیلی خفنه چون باعث میشه نیازی نباشه خودت دائم تجربه کنی و بهترین راه رو پیدا کنی. این الگوریتم خودکار خودش تشخیص میده که برای هر دسته چه روشی بهترینه.
در نهایت، آزمایشهاشون نشون داد که این الگوریتم ترکیبی خیلی بهتر از هر کدوم از اون استراتژیها به تنهایی کار میکنه. یعنی اگه فقط یکی از روشها رو بگیری، نتیجهاش به خوبی این مدل ترکیبی نمیشه. اینم یعنی اگر مشکل داده کم داشتی یا دیتا سنت کافی نبود، میتونی با این روش کلی متن مصنوعی بسازی و دست مدلت رو باز بذاری.
کلاً بخوام جمعبندی کنم: این مقاله نشون داد میشه با هوش مصنوعی و یه ذره خلاقیت، مشکل کمبود داده رو توی مسائل دستهبندی متن برطرف کرد. فقط کافیه به مدل زبونی مثل ChatGPT ورودیهای درست بدی و کل فرآیند رو خودکار کنی. خلاصه، تو آینده احتمالاً خیلی بیشتر از این جور مدلها و روشها میشنویم!
منبع: +