چطوری هوش مصنوعی رو تو آمار پزشکی درست راه بندازیم: ماجرای مهندسی پرامپت!

خب بیاید با هم یه نگاهی بندازیم به دنیای هوش مصنوعی که چطور داره وارد بازی آمار تو تحقیقات پزشکی میشه و همه‌چی رو تغییر میده! ماجرا سر همین generative AIهاست — یعنی اون مدل‌هایی که مثل ChatGPT یا Claude خودشون می‌تونن متن یا حتی تصاویر بسازن و جواب بدن. تو این مقاله، یه سوال مهم بررسی شده: چطوری با پرامپت‌های مختلف (یعنی همون جمله‌ها و سوال‌هایی که به این مدل‌ها می‌دیم)، می‌شه این ربات‌ها رو وادار کرد جوابای آماری درست و قابل فهم بدن؟ مخصوصاً تو کارهای پزشکی که دقت خیلی مهمه.

اول بذارید یه توضیح کوتاه بدم: “Prompt engineering” یعنی هنر و فن طراحی کردن درست و حسابی پرامپت‌ها یا همون سوال‌ها و دستورات برای مدل‌های هوش مصنوعی تا خروجی بهتری بدن.

توی این تحقیق، چهار جور روش پرامپت دادن رو تست کردن:

  1. Zero-shot: یعنی هیچی به مدل نمی‌گیم، فقط سوال آماری رو مستقیم می‌پرسیم! مثلاً می‌پرسی «میانگین این اعداد چنده؟»
  2. Explicit instruction: یعنی توضیح می‌دیم دقیقاً چه انتظاری داریم و چی رو باید چک کنه.
  3. Chain-of-thought: این یکی به مدل کمک می‌کنه که قدم‌به‌قدم فکر و منطق خودش رو توضیح بده. مثل راهنمایی مرحله به مرحله!
  4. Hybrid: ترکیبی از دوتای بالایی! یعنی هم دستور صریح می‌دیم، هم مدل رو تشویق می‌کنیم استدلال کنه و حتی یه ساختار یا فرمت خاص رو رعایت کنه.

حالا رفتن این روش‌ها رو روی چندتا دیتاست مصنوعی تست کردن که شامل وظایف آماری توصیفی (مثل میانگین و واریانس گرفتن) و استنباطی (یعنی نتیجه‌گیری آماری یا تست فرضیات) بوده.

برای ارزیابی هم یه حرکت باحال زدن: از GPT-4.1 و Claude 3.7 Sonnet جواب گرفتن و بعدش با Microsoft Copilot (که یه مدل دیگه‌ست و مثل یه داور اتوماتیکه) اومدن خروجی‌ها رو قضاوت کردن، ولی در کنارش یه آدم واقعی هم بررسی می‌کرد!

نتایج جالب بود. راهکار Zero-shot فقط برای کارای ساده مثل میانگین گرفتن جواب میده؛ ولی وقتی حرف از آمار استنباطی و تست فرضیات میشه، مدل خیلی جاها assumptionها رو اصلاً چک نمی‌کنه. Assumption یعنی اون پیش‌فرض‌هایی که لازمه تا تست آماری معنی بده، مثلاً داده‌ها باید نرمال باشن یا مستقل باشن و از این جور نکات فنی!

همین‌جا بود که روش Hybrid خودش رو نشون داد و بهترین و دقیق‌ترین جوابا رو داد. چرا؟ چون مدل رو مجبور می‌کنی هم دلیل بیاره، هم فرمت نتیجه رو رعایت کنه و هم بهش صریح بگی چی رو چک کنه. نمره‌ها تو چهار تا معیار — چک پیش‌فرض‌ها (assumption checking)، انتخاب درست تست آماری، کامل بودن جواب و کیفیت توضیح — نشون داد روش Hybrid بی‌رقیب بوده.

نکته خفن دیگه این بود که وقتی همون آزمایش رو با مدل‌های جدیدتر — مثل Claude 4 Sonnet، Claude 4 Opus، o3 mini و o4 mini — انجام دادن، باز نتایج تقریبا همونی بود که با نسخه‌های قبلی گرفتن. یعنی این یافته‌ها رو فقط مخصوص یه مدل نیست و روی مدل‌های مختلف OpenAI و Anthropic هم جواب داده. (OpenAI و Anthropic دو تا شرکت معروف ساخته مدل‌های گفتگویی هستن!)

پس، نتیجه اینه: اگه داری تو تحقیق پزشکی با هوش مصنوعی تحلیل آماری می‌کنی، حتماً از پرامپت‌های ساختاریافته (Hybrid) استفاده کن تا احتمال خطا بیاد پایین و جوابا قابل تکرار و علمی باشن.

در آخر: تاکید شده که مهندسی پرامپت دیگه یه مهارت کلیدی تو تحقیقات پزشکی با هوش مصنوعی به حساب میاد. بالاخره باید واسه پرامپت‌ها یه سری قالب استاندارد و ابزار ارزیابی طراحی شه و تحقیقات بیشتری تو حوزه‌های آماری مختلف صورت بگیره تا علم دقیق‌تر و تکرارپذیرتر پیش بره. خلاصه، اگه دنبال خروجی درست از هوش مصنوعی تو آمار پزشکی باشی، باید بدونی چه جوری باهاش حرف بزنی و سوالا رو طراحی کنی!

منبع: +