غربالگری آلزایمر با حرف زدن؟ مدل‌های هوش مصنوعی چه جوری از روی صدا میفهمن!

خب بذارین خیلی خودمونی براتون توضیح بدم. فکر کنین کلی آدم تو آمریکا هستن که آلزایمر گرفتن (همون بیماری که حافظه آدم رو نابود می‌کنه، مخصوصاً سن بالاها)، ولی باورتون نمیشه، بالای نصفشون خبر ندارن که این بیماری رو دارن! حالا یه سری دانشمند اومدن یه روش باحال پیدا کردن: گفتن اگه فقط با حرف زدن و صدای طرف بتونیم بفهمیم آلزایمر داره یا نه، دیگه نیاز نیست تست‌ها و آزمایش‌های سخت انجام بشه. اینجوری میشه خیلی راحت و سریع افراد بیشتری رو بررسی کرد.

اینجا هوش مصنوعی وارد داستان میشه! اگه نمیدونین، هوش مصنوعی یا همون AI یعنی سیستم‌های کامپیوتری باهوشی که می‌تونن شبیه ما فکر کنن یا یاد بگیرن. حالا مدل‌هایی داریم به اسم «مدل زبون بزرگ» یا Large Language Model (LLM) که همون ChatGPT خودش نمونه‌شه – این مدل‌ها کلی متن و حرف یاد گرفتن و می‌تونن معنی چیزهایی که می‌شنون یا می‌خونن رو بفهمن.

توی این تحقیق، اومدن چندتا مدل مختلف هوش مصنوعی رو با هم مقایسه کردن تا ببینن کدومش بهتر می‌تونه فقط از روی حرف زدن آدم‌ها (با استفاده از مجموعه داده‌ای به اسم DementiaBank که کلی صدای حرف زدن بیمارانِ آلزایمری توش هست) تشخیص بده که کی آلزایمر داره کی نه. جالبش اینجاست که هم مدل‌هایی که فقط متن رو می‌خونن امتحان کردن و هم مدل‌هایی که هم صدا رو می‌گیرن، هم متن رو بررسی می‌کنن (اینا رو بهشون مدل‌های “چندرسانه‌ای” می‌گن، یعنی با ورودی‌های مختلف کار می‌کنن).

حالا این وسط یه عالمه روش مختلف هم برای بهتر کردن مدل‌ها امتحان کردن. مثلاً:

یادگیری در بستر مثال: یعنی مدل موقع تصمیم گرفتن چندتا نمونه براش میذارن که شبیه به نمونه اصلی باشه.
دموهای مرکز کلاسی (class-centroid demonstrations): یعنی به مدل نمونه‌هایی میدن که دقیقا وسط همه‌ی نمونه‌های مشابه اون بیماری هست – این روش بهترین نتیجه رو گرفت.
دلیل‌آوری: با اضافه کردن دلایل برای کمک به مدل‌های کوچیک‌تر باعث شدن بهتر بفهمن و تصمیم بگیرن. یعنی مثلاً توضیح دادن چرا فکر می‌کنیم فلانی آلزایمر داره.
تنظیم پارامتری بهینه (parameter-efficient fine-tuning): یعنی فقط یسری بخش‌های مدل رو تغییر میدن به جای اینکه همه‌شو دوباره آموزش بدن که سریع‌تر و راحت‌تره. بهش میگن ‘فاین‌تیونینگ’. تو این کار، فاین‌تیونینگ سطح نشونه (token-level) معمولاً بهترین نتیجه‌ها رو داد.
اضافه کردن بخش طبقه‌بندی (classification head): به مدل‌هایی که خوب جواب نمی‌دادن یه بخش جدا به اسم “هد طبقه‌بندی” وصل کردن که باعث شد بهتر بشن. این یعنی یه جور ماژول اضافه که آخر مدل خروجیش رو طبقه‌بندی می‌کنه.

از نظر مدل‌های چندرسانه‌ای (همزمان صدا و متن رو با هم کار می‌کنن)، اونایی که صدای افراد رو هم به مدل اضافه کردن و روشون فاین‌تیونینگ انجام دادن بد نبودن، اما با این حال، بهترین مدل‌های فقط متنی همچنان بالاترن!

خلاصه اینکه هر کاری مربوط به انتخاب نمونه برای آموزش، نوع دلیل دادن یا حتی اینکه مدل رو چطور فاین‌تیون کنید رو مدل خیلی تاثیر می‌ذاره و می‌تونه باعث بشه این مدل‌ها حتی بهتر از مدل‌های تجاری بزرگ (که پولی هستن!) عمل کنن. یعنی شما می‌تونین با مدل‌های باز (open-weight models)، که رایگان یا قابل دسترس‌ترن، نتیجه‌هایی در حد بهترین مدل‌های تجاری بگیرین.

در نهایت، این تحقیق نشون داد مدل‌های زبان و صدا با یه سری تکنیک باحال واقعا می‌تونن کمک کنن خیلی راحت‌تر و سریع‌تر آلزایمر رو تشخیص بدیم – فقط کافیه طرف چند دقیقه حرف بزنه تا هوش مصنوعی بفهمه تو ذهنش چی می‌گذره! چقدر آینده‌وار و ترسناک جالبه نه؟

منبع: +