بیاین با هم یه موضوع خفن و نسبتاً جدید رو بررسی کنیم: تشخیص زبان در متنهایی که دو تا زبان قاطی شدن! این قضیه رو دانشمندا بهش میگن زبانشناسی دوزبانه یا BLID که مخفف Bilingual Language Identification هست. کارش اینکه بفهمه هر کلمه توی یه متن متعلق به کدوم زبانِ دوتاشه. یه جورایی میشه گفت دنبال اینه که مثلاً اگه یکی فارسی و انگلیسی رو قاطی تایپ کرد، تشخیص بده هر کدوم به چه زبونی هستن.
حالا این تحقیق باحال اومده سراغ زبانهای جنوب اتیوپی، یعنی وولایتا (Wolaita) و گوفا (Gofa). این دوتا زبان رو کسایی حرف میزنن که توی جنوب اتیوپی زندگی میکنن. جالبیش اینجاست که این دو زبان یه جاهایی خیلی به هم شبیهان و یه جاهایی کاملاً فرق دارن! خب… همین موضوع باعث میشه تشخیص دقیقشون کلی سختتر شه.
برای اینکه بفهمن هر کلمه متعلق به کدوم زبان هست، کلی آزمایش و روش مختلف امتحان کردن. مثلاً مدلهای زبانی که با هوش مصنوعی کار میکنن رو به کار بردن. یکی از این مدلها که اسمش BERT هست، مثل یه موتور ترجمه و درک طبیعی زبانه اما خیلی پیشرفتهتر و قبل از این روی کلی داده آموزش دیده. در کنار BERT از یه مدل دیگه به نام LSTM هم استفاده کردن که یه جور هوش مصنوعیه که به ترتیب و توالی اطلاعات اهمیت میده (مثلاً یادش میمونه قبلاً چی خونده و بر اساس اون تصمیم میگیره).
ترکیب این دوتا مدل با هم، بهترین نتیجه رو داده. اگه کنجکاوی بدونی مدل چهقدر خوب جواب داده باید بگم که F1 score این مدل به 0.72 رسیده. F1 score یه عدد بین ۰ و ۱ هست که هر چی به ۱ نزدیکتر باشه یعنی مدل داره درستتر تشخیص میده؛ یه جور معیار برای سنجش دقت مدل هوش مصنوعی حساب میشه.
در نهایت، هدف اصلی این پروژه اینه که بتونه به حل مشکلات تو شبکههای اجتماعی (مثلاً جلوگیری از انتشار محتواهای نامناسب یا فهم بهتر گفتگوها) کمک کنه و البته یه بستر خوب برای تحقیقات بیشتر تو این حوزه فراهم کنه.
پس اگه به زبان و هوش مصنوعی علاقه داری، همین تحقیقا همون چیزیه که دنبالشی: ترکیبی از چالشهای فرهنگی، فناوری، و هوش مصنوعی، اونم در مورد زبانهایی که کمتر کسی میشناسه!
منبع: +