بحران کمبود داده در هوش مصنوعی: چالش‌ها و راه‌حل‌های نوآورانه

پژوهشگران هوش مصنوعی به مرز داده‌های موجود آنلاین برای آموزش مدل‌های زبانی بزرگ مانند ChatGPT نزدیک شده‌اند. این کمبود داده، توسعه هوش مصنوعی را با چالش‌هایی روبه‌رو می‌کند و احتمالاً آن را به سمت استفاده از مدل‌های کوچک‌تر و تخصصی‌تر، تولید داده مصنوعی و بهره‌گیری از مجموعه داده‌های جایگزین هدایت می‌کند.

آیا عطش هوش مصنوعی برای داده‌ها به پایان خود نزدیک می‌شود؟

هوش مصنوعی (Artificial intelligence : AI) در دهه گذشته پیشرفت چشمگیری داشته است. این پیشرفت عمدتاً به دلیل گسترش شبکه‌های عصبی و آموزش آن‌ها با مجموعه داده‌های بسیار بزرگ است. مدل‌های زبانی بزرگ (Large Language Models : LLMs)، مانند مدل‌های ChatGPT، نه‌تنها می‌توانند زبان محاوره‌ای را تقلید کنند، بلکه قابلیت‌های جدیدی مانند استدلال را نیز نشان می‌دهند. اما پژوهشگران هشدار می‌دهند که این پیشرفت سریع ممکن است به زودی با مانعی روبرو شود: کمبود داده‌های آموزشی.

یک مطالعه توسط Epoch AI پیش‌بینی می‌کند که تا سال ۲۰۲۸، حجم مجموعه داده‌های آموزشی با کل متن موجود در اینترنت برابری خواهد کرد. یعنی اینترنت، که منبعی به‌ظاهر نامحدود از دانش بشری است، ممکن است برای آموزش هوش مصنوعی خالی شود. این مشکل با افزایش قوانین مربوط به نحوه استفاده از داده‌ها و مقاومت تولیدکنندگان محتوا و ناشران در برابر کپی‌برداری غیرمجاز از مطالبشان، جدی‌تر می‌شود.

بحران داده و پیامدهای آن

LLMها به مقدار شگفت‌انگیزی داده نیاز دارند. در سال‌های اخیر، تعداد توکن‌ها (واحدهای کلمه) برای آموزش این مدل‌ها از صدها میلیارد به ده‌ها تریلیون افزایش یافته است. اما رشد داده‌های متنی باکیفیت و قابل استفاده در اینترنت کند است – کمتر از ۱۰٪ در سال. با دو برابر شدن حجم داده‌های آموزشی هوش مصنوعی در هر سال، پیش‌بینی می‌شود که این دو در عرض چند سال به هم برسند.

چالش دیگر، مقاومت روزافزون ارائه‌دهندگان محتوا است. بسیاری از وب‌سایت‌ها از روش‌های فنی برای جلوگیری از جمع‌آوری داده‌ها توسط خزنده‌های وب استفاده می‌کنند. برای مثال، مطالعه‌ای توسط Data Provenance Initiative نشان داد که وب‌سایت‌های باکیفیت به‌طور فزاینده‌ای دسترسی شرکت‌های هوش مصنوعی را به محتوای خود محدود می‌کنند. دعواهای حقوقی، مانند شکایت نیویورک تایمز و سایر ناشران از OpenAI، تنش بین توسعه‌دهندگان هوش مصنوعی و تولیدکنندگان محتوا بر سر حق چاپ و استفاده منصفانه را بیشتر نشان می‌دهد.

کاوش راه‌حل‌های خلاقانه

با وجود این چالش‌ها، توسعه‌دهندگان هوش مصنوعی ناامید نیستند. شرکت‌هایی مانند OpenAI و Anthropic در حال بررسی راهکارهای مختلفی برای مقابله با بحران داده‌ها هستند:

تولید داده مصنوعی (Synthetic Data Generation): مدل‌ها می‌توانند داده‌های مصنوعی ایجاد کنند تا کمبود داده‌های واقعی را جبران کنند. برای مثال، OpenAI روزانه صدها میلیارد کلمه از طریق تولید داده مصنوعی تولید می‌کند.
منابع داده غیرمتعارف (Unconventional Data Sources): داده‌های اختصاصی، مانند اطلاعات داخلی شرکت‌ها یا تعاملات ناشناس کاربران، راه دیگری است. اما این منابع محدود هستند و اغلب با نگرانی‌هایی در مورد حریم خصوصی یا اخلاق همراه هستند.
مجموعه داده‌های تخصصی (Specialized Datasets): زمینه‌هایی مانند ژنومیک، پزشکی یا نجوم ممکن است فرصت‌های استفاده از داده‌های دست‌نخورده را فراهم کنند. اما کاربرد آن‌ها برای آموزش LLMها هنوز مشخص نیست.

فراتر از مدل‌های بزرگ‌تر

به‌جای رویکرد “هرچه بزرگ‌تر، بهتر”، می‌توان مدل‌های هوش مصنوعی کوچک‌تر و کارآمدتری متناسب با وظایف خاص توسعه داد. این مدل‌ها به داده و قدرت محاسباتی کمتری نیاز دارند، اما اغلب با آموزش دقیق، نتایج به‌همان اندازه خوبی ارائه می‌دهند.

پیشرفت‌های اخیر در الگوریتم‌ها و سخت‌افزارها به پژوهشگران این امکان را داده است تا با منابع کمتر، کارهای بیشتری انجام دهند. برای مثال، آموزش مجدد مدل‌ها با مجموعه داده‌های موجود به‌اندازه آموزش با داده‌های کاملاً جدید مؤثر بوده است. نوآوری‌هایی مانند یادگیری تقویتی – که در آن مدل‌ها برای بهبود پاسخ‌های خود بازخورد دریافت می‌کنند – نیز در حال افزایش است.

گسترش تعریف داده‌ها

برخی از کارشناسان معتقدند که تعریف فعلی “داده” بسیار محدود است. سیستم‌های هوش مصنوعی می‌توانند فراتر از متن رفته و داده‌های بصری، شنیداری یا حسی را نیز در بر گیرند. برای مثال:

آموزش چندوجهی (Multimodal Training): برخی از مدل‌های هوش مصنوعی مولد در حال حاضر متن، تصاویر و ویدیوها را برای آموزش با هم ترکیب می‌کنند.
یادگیری مبتنی بر هوش مصنوعی (AI-Driven Learning): سیستم‌های رباتیک مجهز به حسگرها می‌توانند به‌جای تکیه بر مجموعه داده‌های از پیش آماده شده، از تجربیات دنیای واقعی یاد بگیرند.

خطرات و نگرانی‌های اخلاقی

در حالی که داده‌های مصنوعی و اختصاصی راه‌حل‌های بالقوه‌ای ارائه می‌دهند، خطراتی نیز دارند. حلقه‌های بازگشتی در تولید داده مصنوعی می‌تواند با تقویت خطاها یا سوگیری‌ها، کیفیت مدل را کاهش دهد. پژوهشگران اصطلاحاتی مانند “اختلال خودخوری مدل (Model Autophagy Disorder)” را برای توصیف اینکه چگونه مدل‌های هوش مصنوعی ممکن است با تکیه بیش از حد بر داده‌های خودساخته ” دچار اختلال شوند” ابداع کرده‌اند.

ملاحظات اخلاقی نیز بسیار مهم هستند. استفاده از محتوای خصوصی یا اختصاصی بدون اجازه، سؤالاتی در مورد حریم خصوصی و مالکیت معنوی ایجاد می‌کند. ایجاد تعادل بین نوآوری و مسئولیت اخلاقی برای توسعه‌دهندگان در این فضای در حال تغییر بسیار مهم خواهد بود.

تغییر در آینده هوش مصنوعی؟

کمبود قریب‌الوقوع داده‌ها می‌تواند چشم‌انداز هوش مصنوعی را به‌کلی تغییر دهد. به‌جای مدل‌های بزرگ و همه‌منظوره، آینده ممکن است شاهد مدل‌های کوچک‌تر و تخصصی‌تر طراحی شده برای کاربردهای خاص باشد. این مدل‌ها می‌توانند از تکنیک‌های آموزشی کارآمدتر استفاده کنند، به انواع داده‌های متنوع تکیه کنند و قابلیت‌های یادگیری خودراهبر را در خود داشته باشند.

در نهایت، ترکیب داده‌های مصنوعی، روش‌های آموزشی نوآورانه و منابع داده جدید می‌تواند با وجود چالش‌ها، رشد هوش مصنوعی را ادامه دهد. همچنان که مدل‌ها به‌طور مستقل‌تر “فکر” می‌کنند و با جهان به روش‌های پیچیده‌تری تعامل دارند، مرزهای توسعه هوش مصنوعی گسترش خواهد یافت.

این سؤال باقی می‌ماند: آیا عطش هوش مصنوعی برای داده‌ها سیری‌ناپذیر است یا می‌تواند یاد بگیرد که با منابع کمتر رشد کند؟ پاسخ به این بستگی دارد که پژوهشگران و توسعه‌دهندگان چگونه با این نقطه عطف حیاتی در تاریخ هوش مصنوعی سازگار می‌شوند.

اگر به خواندن کامل این مطلب علاقه‌مندید، روی لینک مقابل کلیک کنید: nature.com