تشخیص زبان در کلمات دوزبانه: ماجرای جالب زبان‌های جنوب اتیوپی!

بیاین با هم یه موضوع خفن و نسبتاً جدید رو بررسی کنیم: تشخیص زبان در متن‌هایی که دو تا زبان قاطی شدن! این قضیه رو دانشمندا بهش میگن زبان‌شناسی دوزبانه یا BLID که مخفف Bilingual Language Identification هست. کارش اینکه بفهمه هر کلمه توی یه متن متعلق به کدوم زبانِ دوتاشه. یه جورایی میشه گفت دنبال اینه که مثلاً اگه یکی فارسی و انگلیسی رو قاطی تایپ کرد، تشخیص بده هر کدوم به چه زبونی هستن.

حالا این تحقیق باحال اومده سراغ زبان‌های جنوب اتیوپی، یعنی وولایتا (Wolaita) و گوفا (Gofa). این دوتا زبان رو کسایی حرف می‌زنن که توی جنوب اتیوپی زندگی می‌کنن. جالبیش اینجاست که این دو زبان یه جاهایی خیلی به هم شبیه‌ان و یه جاهایی کاملاً فرق دارن! خب… همین موضوع باعث میشه تشخیص دقیقشون کلی سخت‌تر شه.

برای اینکه بفهمن هر کلمه متعلق به کدوم زبان هست، کلی آزمایش و روش مختلف امتحان کردن. مثلاً مدل‌های زبانی که با هوش مصنوعی کار می‌کنن رو به کار بردن. یکی از این مدل‌ها که اسمش BERT هست، مثل یه موتور ترجمه و درک طبیعی زبانه اما خیلی پیشرفته‌تر و قبل از این روی کلی داده آموزش دیده. در کنار BERT از یه مدل دیگه به نام LSTM هم استفاده کردن که یه جور هوش مصنوعیه که به ترتیب و توالی اطلاعات اهمیت می‌ده (مثلاً یادش می‌مونه قبلاً چی خونده و بر اساس اون تصمیم می‌گیره).

ترکیب این دوتا مدل با هم، بهترین نتیجه رو داده. اگه کنجکاوی بدونی مدل چه‌قدر خوب جواب داده باید بگم که F1 score این مدل به 0.72 رسیده. F1 score یه عدد بین ۰ و ۱ هست که هر چی به ۱ نزدیک‌تر باشه یعنی مدل داره درست‌تر تشخیص میده؛ یه جور معیار برای سنجش دقت مدل هوش مصنوعی حساب میشه.

در نهایت، هدف اصلی این پروژه اینه که بتونه به حل مشکلات تو شبکه‌های اجتماعی (مثلاً جلوگیری از انتشار محتواهای نامناسب یا فهم بهتر گفتگوها) کمک کنه و البته یه بستر خوب برای تحقیقات بیشتر تو این حوزه فراهم کنه.

پس اگه به زبان و هوش مصنوعی علاقه داری، همین تحقیقا همون چیزیه که دنبالشی: ترکیبی از چالش‌های فرهنگی، فناوری، و هوش مصنوعی، اونم در مورد زبان‌هایی که کمتر کسی میشناسه!

منبع: +