راستشو بخوای، ژنتیک بازی با پرامپت‌ها: ماجرای GAAPO و بهینه‌سازی برای چت‌بات‌ها!

اگه تا حالا خواستی با چت‌بات‌های پیشرفته (همین LLMها) کار کنی و یه جواب توپ ازشون بگیری، حتما فهمیدی که خیلی مهمه چی ازشون می‌پرسی. این «پرامپت» یا همون چیزی که تایپ می‌کنی واقعاً می‌تونه نتیجه‌ها رو زیر و رو کنه. اما یه دردسر اساسی اینه که عشقِ پیدا کردن پرامپت خوب، حسابی وقت‌گیر و بیشتر مواقع سلیقه‌ایه. یعنی بشینی هی دستی اینو ور کنی، اونو عوض کنی… خب، خیلی بهینه نیست، نه؟

حالا یه تیم باهوش اومده یه راه‌حل خفن رو رو کرده به اسم GAAPO، یعنی “Genetic Algorithm Applied to Prompt Optimization” یا به فارسی خودمونی “استفاده از الگوریتم ژنتیکی برای بهینه‌سازی پرامپت”. جات خالی، این GAAPO یه مدل هیبریدی (یعنی ترکیبی) برای بهینه کردن پرامپت‌هاست که پایه‌ش همون الگوریتم ژنتیکیه.

حالا این الگوریتم ژنتیکی چیه؟ ساده بگم: الگوریتم ژنتیکی یه روش شبیه‌سازی شده از فرآیند تکامل طبیعیه برای حل مساله‌ها، که با استفاده از چیزی مثل “جهش” (mutation) و “ترکیب” (crossover)، بهترین جواب‌ها رو نسل به نسل پیدا می‌کنه. دقیقاً مثل زندگی که نسل قوی‌تر بمونه!

اما GAAPO فقط به این عملیات ژنتیکی کلاسیک بسنده نکرده. اومده و کلی تکنیک‌های خاص برای تولید پرامپت رو هم باهاش ترکیب کرده. یعنی به جای اینکه فقط با جهش و ترکیب بره جلو، از روش‌های مختلف و خلاقانه هم برای ساختن و ارتقای پرامپت‌ها استفاده می‌کنه.

تیم GAAPO برای تست داستانشون، یه عالمه آزمایش روی دیتاست‌های مختلف انجام دادن مثل ETHOS، MMLU-Pro و GPQA. حالا دیتاست یعنی چی؟ یعنی مجموعه‌ای از سؤالات و جواب‌ها که برای امتحان مدل‌ها ازش استفاده می‌کنن. نکته جالب اینه که اومدن سلکت شده و گلچین شده دیتاست‌های کوچیک‌تر درست کردن، تا روششون توی موقعیت‌های واقعی هم بشه استفاده کرد و به درد بخوره.

یه سری یافته باحال و مهم هم به دست آوردن مثل اینکه:

تعادل بین تعداد جمعیت (population size) و تعداد نسل‌ها (number of generations) رو باید در نظر بگیریم؛ چون هر چی جمعیت بزرگ‌تر، شاید جوابای متنوع‌تر، ولی زمان بیشتر هم لازم داره.
سبک انتخاب افراد برتر (selection methods) توی پایداری نتیجه‌ها کلی تاثیر می‌ذاره. مثلاً بعضی روش‌ها باعث میشن جوابا پایدارتر بمونن، بعضیا نه.
ظرفیت مدل‌ها و مخصوصاً مدل‌هایی که استدلال می‌کنن (reasoning models) تو خودکاری ساختن پرامپت‌ها از سؤالای مشابه، واقعاً به درد بخوره. یعنی یه مدل خوب خودش می‌فهمه از سؤال مشابه چه پرامپتی بسازه!

در آخر هم کلی راجع به اینکه کدوم روش‌های تولید پرامپت بهتر جواب دادن و این استراتژی‌ها تو مسیر بهینه‌سازی چجوری پیش میرن، صحبت کردن.

خلاصه اینکه GAAPO هم به دانش تئوری «پرامپت بهینه کردن» کمک می‌کنه، هم پشت صحنه باعث میشه این چت‌بات‌ها جواب بهتری تحویل بدن. اگه یه روزی دیدی یه چت‌بات تو یه سایت یا اپ به طرز عجیبی حرفه‌ای جواب داد، شاید اثر همین تکنیک‌ها و تحقیق‌ها باشه!

منبع: +