یه نگاه جذاب به TalkPlayData 2: داده مصنوعی برای پیشنهاد آهنگ به سبک لایه‌لایه!

Fall Back

حتماً براتون پیش اومده که وقتی دنبال یه آهنگ جدید می‌گردید یا می‌خواید پلی‌لیستتون رو متنوع کنین، دوست داشتین با یکی گپ بزنین و ازش راهنمایی بگیرین. حالا فکر کن یه سیستم هوش مصنوعی بتونه باهات مکالمه کنه و دقیقاً همون آهنگی که دنبالشی رو بهت پیشنهاد بده. پروژه‌ای که اخیراً معرفی شده به نام TalkPlayData 2، دقیقاً قراره این کار رو راحت‌تر کنه.

از اونجایی که هوش مصنوعی‌ها برای آموزش به حجم زیادی داده نیاز دارن، چند وقتیه بعضیا شروع کردن به ساختن داده مصنوعی. یعنی به جای جمع کردن داده واقعی از کاربرا، خودشون داده — مثلاً مکالمه یا دیالوگ — می‌سازن تا هوش مصنوعیشون رو تمرین بدن. اینجا TalkPlayData 2 وارد میشه: یه دیتاست (Data set یعنی مجموعه بزرگی از داده‌ها برای آموزش AI) مصنوعی و کاملاً نو که تمرکزش روی مکالمه‌های پیشنهاد موسیقی با چند تا مُدل هوش مصنوعی قوی هست.

حالا قضیه چیه؟ این‌بار به جای یه مدل، چندتا مدل زبان بزرگ (Large Language Model یا به اختصار LLM؛ اینا همون هوش مصنوعی‌هایی هستن که می‌تونن متن تولید کنن و جواب بدن) رو گذاشتن توی نقش‌های مختلف! مثلاً یکیشون نقش شنونده رو بازی می‌کنه (Listener LLM) و یکی دیگه نقش سیستم پیشنهاددهنده آهنگ (Recsys LLM). هر دو با هم چت می‌کنن و اطلاعاتشون هم فرق داره؛ یعنی هر کدوم به یه بخشی از اطلاعات از پیش تعیین‌شده دسترسی دارن و طبق دستورهایی که گرفتن با هم صحبت می‌کنن.

برای اینکه مکالمه‌ها متنوع و شبیه دنیای واقعی بشه، هر بار به Listener LLM یه هدف مکالمه خاص داده میشه (یعنی این مدل رو طوری تنظیم می‌کنن که انگار توی شرایط مختلف داره پیشنهاد آهنگ می‌گیره). خلاصه، این سیستم می‌تونه انواع سناریوها رو بسازه که توش مکالمه‌ها خیلی طبیعی‌تر بشه.

یه نکته جالب دیگه اینه که این مدل‌ها فقط متن نمی‌سازن؛ مولتی‌مودال هستن! یعنی با صدا و تصویر هم کار می‌کنن. مولتی‌مودال (Multimodal) یعنی مدلی که فقط بلد نیست متن بخونه یا بنویسه؛ می‌تونه صدا (مثلاً یه تیکه آهنگ) یا عکس کاور آلبوم رو هم تحلیل و تو مکالمه استفاده کنه. این باعث میشه تجربه پیشنهاد موسیقی واقعاً همه‌جانبه بشه و مکالمه فقط محدود به نوشتار نباشه.

برای اینکه مطمئن بشن داده‌های تولیدشده واقعاً به درد آموزش مدل‌های پیشنهاددهنده موسیقی می‌خورن، چند تا آزمایش هم ترتیب دادن. یکی از این آزمایش‌ها به نام LLM-as-a-judge بود. یعنی یک مدل هوش مصنوعی دیگه مثل یه داور نشست و بررسی کرد که آیا نتیجه گفتگوها واقع‌گرایانه و قابل قبول هست یا نه. تو آزمون‌های «ارزیابی ذهنی» (Subjective Evaluation) هم، به صورت انسانی‌تر و با در نظر گرفتن نظر آدم‌ها، بررسی کردن که آیا مکالمه‌ها به هدف یعنی ساختن مدل پیشنهاد موسیقی نزدیک شدن یا نه.

خبر خوب برای دانشجوها و پژوهشگرای هوش مصنوعی: داده‌ها و حتی کدهای تولیدشون رو اوپن‌سورس کردن! (Open source یعنی هرکی خواست می‌تونه بیاد و از داده‌ها/کدها استفاده کنه یا توسعه‌شون بده، کاملاً رایگان). همه رو اینجا گذاشتن: https://talkpl.ai/talkplaydata2.html

خلاصه اینکه TalkPlayData 2 داره به محقق‌ها و توسعه‌دهنده‌های AI کمک می‌کنه تا مدل‌های پیشنهاد موسیقی‌ای بسازن که مثل یه دوست با آدم حرف می‌زنن، بهشون موسیقی پیشنهاد می‌کنن و این وسط حتی می‌تونن عکس و موزیک هم نشون بدن؛ دیگه چی بهتر از این؟ 😉

منبع: +