یه نگاه خودمونی به تشخیص اخبار بنگالی: مدل زبانی بر پایه ترنسفورمر و مقایسه روش‌های توضیح‌پذیری یادگیری ماشین و عمیق

خب ببین، موضوع اصلی این تحقیق اون دسته از متن‌های پراکنده به زبان بنگالیه که باید دسته‌بندی بشن. حالا چرا این اهمیت داره؟ چون زبان بنگالی رو حسابی می‌شه به عنوان یه زبان کم‌منبع (یعنی زبانی که داده و مدل‌های آماده‌ی زیادی براش وجود نداره) در نظر گرفت. این خودش یه چالش حسابی تو پردازش زبان طبیعی یا همون NLP میاره. خب، NLP همون حوزه‌ایه که دنبال اینه بفهمه کامپیوترها چجوری می‌تونن زبان ما آدما رو بفهمن و پردازش کنن!

توی این کار، اولش با چندتا مدل یادگیری ماشینِ سنتی (یعنی همون ML، مدل‌هایی که داده رو می‌گیرن و سعی می‌کنن از قبل بتدریج قاعده پیدا کنن) شروع کردن تا یه پایه برای مقایسه داشته باشن. بعدش رفتن سمت یادگیری عمیق، اینجا یه مدلی رو امتحان کردن به اسم LSTM، که خلاصه‌ش اینه: مخصوص کارهای ترتیبیه، مثل متن و صدا. راحت‌تر بگم، LSTM یه نوع شبکه عصبیه که می‌تونه اطلاعات رو واسه مدت بیشتری تو ذهنش نگه داره، پس برای متن‌های طولانی گزینه‌ی خوبیه.

اما قصه اینجا تموم نمی‌شه! تیم تحقیق رفت سراغ مدل‌های ترنسفورمر. ترنسفورمرها (transformer) الان تو دنیای یادگیری ماشین حسابی معروف شدن چون وقتی پای زبان به میون میاد، کم نمیارن! این مدل‌ها واسه کارایی مثل ترجمه، دسته‌بندی متن، یا حتی تولید متن عالی عمل می‌کنن.

برای این تحقیق، یه سری اخبار جدید بنگالی رو از اینترنت جمع‌آوری کردن (خودش کلی زحمت داره چون داده‌های بنگالی پر از نویز و شلوغیه)، بعد کلی پیش‌پردازش و مهندسی ویژگی (feature engineering یعنی انتخاب اون بخش‌هایی از داده که می‌تونن به مدل زیاد کمک کنن) روش انجام دادن تا دیتاست رو حسابی تمیز کنن.

وقتی مدل‌ها رو امتحان کردن، چیزی که از همه دقیق‌تر عمل کرد یه مدل ترنسفورمیری به اسم XLM-RoBERTa Base بود. این مدل تونست به دقت ۰.۹۱ برسه – عدد خیلی خوبیه مخصوصاً برای زبانی که خیلی داده براش نیست!

ولی فقط دقت بالا ملاک نیست؛ مسئله توضیح‌پذیری یا همون Explainability هم مطرحه. این یعنی مدل هوش مصنوعی فقط نباید جواب بده، باید بتونیم بفهمیم چرا این جواب رو داده، و بهش اعتماد پیدا کنیم. اینجا از یه ابزار به نام LIME استفاده کردن. LIME مخفف Local Interpretable Model-agnostic Explanationsه، که ساده‌تر بگم یعنی یه جوری خروجی مدل رو توضیح می‌ده که حتی اگه مدل برات غریبه باشه، باز بفهمی چرا این پیش‌بینی شده!

LIME کمک کرد بفهمن کدوم ویژگی‌ها یا کدوم کلمه‌ها توی عنوان خبرها تاثیر بیشتری داشتن تا اون خبرها درست دسته‌بندی بشن. این‌جوری اطمینان حاصل شده که نتایج مدل فقط تصادفی نبوده و واقعاً درست یاد گرفته.

در نتیجه، این تحقیق نشون داد که مدل‌های یادگیری عمیق مخصوصاً ترنسفورمرها، برای دسته‌بندی متن به زبان بنگالی خیلی قوی عمل می‌کنن. از همه مهم‌تر، توضیح‌پذیری باعث می‌شه مدل شفاف‌تر باشه و آدم‌ها بیشتر به نتیجه‌هاش اعتماد کنن. خلاصه اگر یه روز بخوای مدل هوش مصنوعی روی متن‌های بنگالی پیاده کنی، ترنسفورمر و توضیح‌پذیری رو فراموش نکن!

منبع: +