اگه تا حالا خواستی با چتباتهای پیشرفته (همین LLMها) کار کنی و یه جواب توپ ازشون بگیری، حتما فهمیدی که خیلی مهمه چی ازشون میپرسی. این «پرامپت» یا همون چیزی که تایپ میکنی واقعاً میتونه نتیجهها رو زیر و رو کنه. اما یه دردسر اساسی اینه که عشقِ پیدا کردن پرامپت خوب، حسابی وقتگیر و بیشتر مواقع سلیقهایه. یعنی بشینی هی دستی اینو ور کنی، اونو عوض کنی… خب، خیلی بهینه نیست، نه؟
حالا یه تیم باهوش اومده یه راهحل خفن رو رو کرده به اسم GAAPO، یعنی “Genetic Algorithm Applied to Prompt Optimization” یا به فارسی خودمونی “استفاده از الگوریتم ژنتیکی برای بهینهسازی پرامپت”. جات خالی، این GAAPO یه مدل هیبریدی (یعنی ترکیبی) برای بهینه کردن پرامپتهاست که پایهش همون الگوریتم ژنتیکیه.
حالا این الگوریتم ژنتیکی چیه؟ ساده بگم: الگوریتم ژنتیکی یه روش شبیهسازی شده از فرآیند تکامل طبیعیه برای حل مسالهها، که با استفاده از چیزی مثل “جهش” (mutation) و “ترکیب” (crossover)، بهترین جوابها رو نسل به نسل پیدا میکنه. دقیقاً مثل زندگی که نسل قویتر بمونه!
اما GAAPO فقط به این عملیات ژنتیکی کلاسیک بسنده نکرده. اومده و کلی تکنیکهای خاص برای تولید پرامپت رو هم باهاش ترکیب کرده. یعنی به جای اینکه فقط با جهش و ترکیب بره جلو، از روشهای مختلف و خلاقانه هم برای ساختن و ارتقای پرامپتها استفاده میکنه.
تیم GAAPO برای تست داستانشون، یه عالمه آزمایش روی دیتاستهای مختلف انجام دادن مثل ETHOS، MMLU-Pro و GPQA. حالا دیتاست یعنی چی؟ یعنی مجموعهای از سؤالات و جوابها که برای امتحان مدلها ازش استفاده میکنن. نکته جالب اینه که اومدن سلکت شده و گلچین شده دیتاستهای کوچیکتر درست کردن، تا روششون توی موقعیتهای واقعی هم بشه استفاده کرد و به درد بخوره.
یه سری یافته باحال و مهم هم به دست آوردن مثل اینکه:
- تعادل بین تعداد جمعیت (population size) و تعداد نسلها (number of generations) رو باید در نظر بگیریم؛ چون هر چی جمعیت بزرگتر، شاید جوابای متنوعتر، ولی زمان بیشتر هم لازم داره.
- سبک انتخاب افراد برتر (selection methods) توی پایداری نتیجهها کلی تاثیر میذاره. مثلاً بعضی روشها باعث میشن جوابا پایدارتر بمونن، بعضیا نه.
- ظرفیت مدلها و مخصوصاً مدلهایی که استدلال میکنن (reasoning models) تو خودکاری ساختن پرامپتها از سؤالای مشابه، واقعاً به درد بخوره. یعنی یه مدل خوب خودش میفهمه از سؤال مشابه چه پرامپتی بسازه!
در آخر هم کلی راجع به اینکه کدوم روشهای تولید پرامپت بهتر جواب دادن و این استراتژیها تو مسیر بهینهسازی چجوری پیش میرن، صحبت کردن.
خلاصه اینکه GAAPO هم به دانش تئوری «پرامپت بهینه کردن» کمک میکنه، هم پشت صحنه باعث میشه این چتباتها جواب بهتری تحویل بدن. اگه یه روزی دیدی یه چتبات تو یه سایت یا اپ به طرز عجیبی حرفهای جواب داد، شاید اثر همین تکنیکها و تحقیقها باشه!
منبع: +