حتماً براتون پیش اومده که وقتی دنبال یه آهنگ جدید میگردید یا میخواید پلیلیستتون رو متنوع کنین، دوست داشتین با یکی گپ بزنین و ازش راهنمایی بگیرین. حالا فکر کن یه سیستم هوش مصنوعی بتونه باهات مکالمه کنه و دقیقاً همون آهنگی که دنبالشی رو بهت پیشنهاد بده. پروژهای که اخیراً معرفی شده به نام TalkPlayData 2، دقیقاً قراره این کار رو راحتتر کنه.
از اونجایی که هوش مصنوعیها برای آموزش به حجم زیادی داده نیاز دارن، چند وقتیه بعضیا شروع کردن به ساختن داده مصنوعی. یعنی به جای جمع کردن داده واقعی از کاربرا، خودشون داده — مثلاً مکالمه یا دیالوگ — میسازن تا هوش مصنوعیشون رو تمرین بدن. اینجا TalkPlayData 2 وارد میشه: یه دیتاست (Data set یعنی مجموعه بزرگی از دادهها برای آموزش AI) مصنوعی و کاملاً نو که تمرکزش روی مکالمههای پیشنهاد موسیقی با چند تا مُدل هوش مصنوعی قوی هست.
حالا قضیه چیه؟ اینبار به جای یه مدل، چندتا مدل زبان بزرگ (Large Language Model یا به اختصار LLM؛ اینا همون هوش مصنوعیهایی هستن که میتونن متن تولید کنن و جواب بدن) رو گذاشتن توی نقشهای مختلف! مثلاً یکیشون نقش شنونده رو بازی میکنه (Listener LLM) و یکی دیگه نقش سیستم پیشنهاددهنده آهنگ (Recsys LLM). هر دو با هم چت میکنن و اطلاعاتشون هم فرق داره؛ یعنی هر کدوم به یه بخشی از اطلاعات از پیش تعیینشده دسترسی دارن و طبق دستورهایی که گرفتن با هم صحبت میکنن.
برای اینکه مکالمهها متنوع و شبیه دنیای واقعی بشه، هر بار به Listener LLM یه هدف مکالمه خاص داده میشه (یعنی این مدل رو طوری تنظیم میکنن که انگار توی شرایط مختلف داره پیشنهاد آهنگ میگیره). خلاصه، این سیستم میتونه انواع سناریوها رو بسازه که توش مکالمهها خیلی طبیعیتر بشه.
یه نکته جالب دیگه اینه که این مدلها فقط متن نمیسازن؛ مولتیمودال هستن! یعنی با صدا و تصویر هم کار میکنن. مولتیمودال (Multimodal) یعنی مدلی که فقط بلد نیست متن بخونه یا بنویسه؛ میتونه صدا (مثلاً یه تیکه آهنگ) یا عکس کاور آلبوم رو هم تحلیل و تو مکالمه استفاده کنه. این باعث میشه تجربه پیشنهاد موسیقی واقعاً همهجانبه بشه و مکالمه فقط محدود به نوشتار نباشه.
برای اینکه مطمئن بشن دادههای تولیدشده واقعاً به درد آموزش مدلهای پیشنهاددهنده موسیقی میخورن، چند تا آزمایش هم ترتیب دادن. یکی از این آزمایشها به نام LLM-as-a-judge بود. یعنی یک مدل هوش مصنوعی دیگه مثل یه داور نشست و بررسی کرد که آیا نتیجه گفتگوها واقعگرایانه و قابل قبول هست یا نه. تو آزمونهای «ارزیابی ذهنی» (Subjective Evaluation) هم، به صورت انسانیتر و با در نظر گرفتن نظر آدمها، بررسی کردن که آیا مکالمهها به هدف یعنی ساختن مدل پیشنهاد موسیقی نزدیک شدن یا نه.
خبر خوب برای دانشجوها و پژوهشگرای هوش مصنوعی: دادهها و حتی کدهای تولیدشون رو اوپنسورس کردن! (Open source یعنی هرکی خواست میتونه بیاد و از دادهها/کدها استفاده کنه یا توسعهشون بده، کاملاً رایگان). همه رو اینجا گذاشتن: https://talkpl.ai/talkplaydata2.html
خلاصه اینکه TalkPlayData 2 داره به محققها و توسعهدهندههای AI کمک میکنه تا مدلهای پیشنهاد موسیقیای بسازن که مثل یه دوست با آدم حرف میزنن، بهشون موسیقی پیشنهاد میکنن و این وسط حتی میتونن عکس و موزیک هم نشون بدن؛ دیگه چی بهتر از این؟ 😉
منبع: +