LLaVA-o1: مدل بینایی-زبانی متن‌باز، رقیب جدید OpenAI

محققان چینی از LLaVA-o1، یک مدل بینایی-زبانی (VLM) متن‌باز، رونمایی کرده‌اند. این مدل با رویکردی ساختاریافته و چندمرحله‌ای، برای رقابت با مدل o1 شرکت OpenAI و بهبود توانایی‌های استدلال بصری طراحی شده است. LLaVA-o1 با استفاده از مقیاس‌پذیری در زمان استنتاج و یک «جستجوی پرتو سطح-مرحله‌ای» جدید، عملکرد خود را در وظایف استدلال بصری پیچیده بهبود می‌بخشد.

مدل o1 شرکت OpenAI، پتانسیل مقیاس‌پذیری در زمان استنتاج – استفاده از قدرت محاسباتی بیشتر در طول استنتاج – را برای افزایش قابل توجه توانایی‌های استدلال یک مدل زبانی نشان داد. این امر جرقه توسعه LLaVA-o1، یک مدل بینایی-زبانی (VLM) متن‌باز ایجاد شده توسط محققانی از دانشگاه‌های مختلف چین، را زد که هدف آن آوردن این الگو به VLM‌های متن‌باز و به چالش کشیدن تسلط OpenAI در مدل‌های استدلال پیشرفته است.

VLM‌های متن‌باز اولیه اغلب به پیش‌بینی مستقیم متکی هستند و پاسخ‌ها را بدون فرآیند استدلال ساختاریافته تولید می‌کنند. این امر اثربخشی آنها را در وظایفی که نیاز به استنتاج منطقی دارند، محدود می‌کند. در حالی که تکنیک‌هایی مانند اعلان زنجیره-فکر (CoT) پیشرفت‌هایی را ارائه می‌دهند، مستعد خطا و توهم هستند. محققان یک مسئله اساسی را شناسایی کردند: فقدان یک فرآیند استدلال سیستماتیک و ساختاریافته در VLM‌های موجود. این مدل‌ها اغلب در حفظ یک زنجیره استدلال منسجم مشکل دارند که منجر به نتیجه‌گیری و توجیهات ناقص می‌شود.

با الهام از o1 شرکت OpenAI، LLaVA-o1 یک رویکرد استدلال چندمرحله‌ای را در بر می‌گیرد. به جای یک زنجیره استدلال مستقیم، فرآیند را به چهار مرحله مجزا تقسیم می‌کند:

خلاصه‌سازی: مدل، مسئله اصلی مطرح شده در سوال را خلاصه می‌کند.
عنوان: اگر تصویری درگیر باشد، مدل عناصر مرتبط با سوال را توصیف می‌کند.
استدلال: بر اساس خلاصه، مدل استدلال منطقی ساختاریافته‌ای را برای رسیدن به یک پاسخ اولیه انجام می‌دهد.
نتیجه‌گیری: مدل یک پاسخ مختصر مشتق شده از فرآیند استدلال ارائه می‌دهد.

فقط نتیجه‌گیری برای کاربر قابل مشاهده است. مراحل دیگر نشان دهنده استدلال داخلی مدل هستند، مشابه ردیابی استدلال پنهان o1. این رویکرد ساختاریافته به LLaVA-o1 اجازه می‌دهد تا فرآیند استدلال خود را به طور موثرتری مدیریت کند و عملکرد را در وظایف پیچیده بهبود بخشد.

علاوه بر این، LLaVA-o1 یک تکنیک مقیاس‌پذیری در زمان استنتاج جدید به نام «جستجوی پرتو سطح-مرحله‌ای» را معرفی می‌کند. این تکنیک در هر مرحله استدلال چندین خروجی کاندید تولید می‌کند و بهترین کاندید را برای رفتن به مرحله بعدی انتخاب می‌کند. این با رویکرد سنتی بهترین-از-N متفاوت است، جایی که چندین پاسخ کامل قبل از انتخاب تولید می‌شوند. خروجی ساختاریافته LLaVA-o1، جستجوی پرتو سطح-مرحله‌ای را امکان‌پذیر می‌کند و امکان تأیید کارآمد و دقیق در هر مرحله را فراهم می‌کند.

برای آموزش LLaVA-o1، محققان یک مجموعه داده جدید از تقریباً ۱۰۰۰۰۰ جفت تصویر-سوال-پاسخ از مجموعه داده‌های مختلف VQA ایجاد کردند. این مجموعه داده طیف وسیعی از وظایف، از جمله پرسش و پاسخ چند نوبتی، تفسیر نمودار و استدلال هندسی را پوشش می‌دهد. GPT-4o برای تولید فرآیندهای استدلال چهار مرحله‌ای دقیق برای هر مثال به کار گرفته شد. سپس محققان Llama-3.2-11B-Vision-Instruct را بر روی این مجموعه داده تنظیم دقیق کردند تا مدل نهایی LLaVA-o1 را ایجاد کنند. در حالی که خود مدل هنوز منتشر نشده است، محققان قصد دارند مجموعه داده ۱۰۰۰۰۰ مثالی را با نام LLaVA-o1-100k منتشر کنند.

ارزیابی‌های LLaVA-o1 در معیارهای مختلف استدلال چندوجهی، پیشرفت‌های عملکرد قابل توجهی را نسبت به مدل پایه Llama نشان داد، با میانگین افزایش امتیاز معیار ۶.۹٪، با وجود اینکه فقط بر روی ۱۰۰۰۰۰ مثال آموزش داده شده است. جستجوی پرتو سطح-مرحله‌ای عملکرد را بیشتر افزایش داد و اثربخشی مقیاس‌پذیری در زمان استنتاج را نشان داد. محققان با محدودیت منابع محاسباتی، این تکنیک را با اندازه پرتو ۲ آزمایش کردند و پیش‌بینی می‌کنند که با اندازه‌های پرتو بزرگتر، پیشرفت‌های بیشتری حاصل شود.

به طور قابل توجهی، LLaVA-o1 نه تنها از سایر مدل‌های متن‌باز با اندازه مشابه یا بزرگتر، بلکه از برخی مدل‌های منبع بسته مانند GPT-4-o-mini و Gemini 1.5 Pro نیز بهتر عمل کرد. این دستاورد استاندارد جدیدی را برای استدلال چندوجهی در VLM‌ها تعیین می‌کند و عملکرد و مقیاس‌پذیری قوی، به ویژه در زمان استنتاج، ارائه می‌دهد.

توسعه LLaVA-o1 راه‌های جدیدی را برای تحقیق در استدلال ساختاریافته در VLM‌ها باز می‌کند. تحقیقات آینده می‌تواند ادغام تأییدکننده‌های خارجی و استفاده از یادگیری تقویتی را برای افزایش بیشتر قابلیت‌های استدلال چندوجهی پیچیده بررسی کند. این کار گامی significant به سوی VLM‌های متن‌باز قدرتمندتر و در دسترس‌تر است که به طور بالقوه تسلط مدل‌های منبع بسته را در زمینه استدلال بصری پیشرفته به چالش می‌کشد. انتظار می‌رود انتشار مجموعه داده LLaVA-o1-100k نیز به طور قابل توجهی در توسعه و معیارسنجی VLM‌های متن‌باز آینده کمک کند.

اگر به خواندن کامل این مطلب علاقه‌مندید، روی لینک مقابل کلیک کنید: venturebeat