چطوری مدل زبانی هوش مصنوعی رو روی لپ‌تاپ خودت اجرا کنی؟ (راهنمای باحال و خودمونی!)

خب بچه‌ها، فرض کن آخر دنیا شده و فقط یه USB داری که خلاصه‌ی کل دانش بشر توشه! البته این سناریو خیلی آخرالزمانیه، ولی سایمون ویلیسون – یه بلاگر معروف که همیشه درباره مدل‌های زبانی محلی (یعنی همون LLMهایی که رو دستگاه خودت اجرا میشن) می‌نویسه – دقیقاً همچین برنامه‌ای داره. اون مدل‌های اپن سورس (یعنی قابل دانلود و آزاد) رو ریخته توی فلشش که اگه یه روز اینترنت رفت رو هوا، بتونه باهاش اطلاعات لازم رو دربیاره. خودش میگه: «انگار یه نسخه عجیب و خلاصه و کمی معیوب از ویکی‌پدیا رو دارم، با همین فلشم قراره دنیا رو ریبوت کنم!»

ولی خب، واقعیت اینه که برای اجرای مدل‌ زبانیِ هوش مصنوعی رو دستگاه خودت نیازی به سناریوی پایان دنیا نداری! الان کلی آدم هستن که فقط به خاطر حفظ حریم خصوصی یا عشق به دستکاری نرم‌افزار، سراغ این کار اومدن. مثلاً همین subreddit به اسم r/LocalLLaMA رو نگاه کن؛ بیشتر از ۵۰۰ هزار عضو داره که دقیقاً دارن درباره اجرا کردن LLM روی دستگاه خودشون حرف می‌زنن.

چرا اصلاً باید سراغ مدل‌های لوکال بری؟ ببین، ابزارهایی مثل ChatGPT خیلی راحت و همیشه در دسترس هستن، ولی نکته اینجاست که وقتی یه چیزی مجانیه، در حقیقت خودت کالایی! یعنی اطلاعاتت دارن جمع میشن. هم OpenAI (شرکت سازنده ChatGPT) و هم گوگل (که Gemini رو ساخته) معمولاً روی چت‌های رایگان و پولی مردم مدل‌هاشون رو آموزش میدن. مثلاً OpenAI به طور پیش‌فرض چت‌هات رو برای تقویت مدلش استفاده می‌کنه. می‌تونی این گزینه رو خاموش کنی، ولی الآن به خاطر مشکلات حقوقی با نیویورک تایمز، پیام‌هات باید حفظ بشن و دیگه کامل پاک نمی‌شن.

حالا اشتراک‌ها و قوانین گوگل هم جالبن: فقط اگه تاریخچه مکالماتت رو بذاری خودش حذف بشه (که دیگه هیچی از چت‌هات نمی‌مونه)، می‌تونی جلوی آموزش گرفتن مدلا رو بگیری. Anthropic (یکی دیگه از شرکت‌های بزرگ هوش مصنوعی) رسماً نمیاد چت‌هات رو برای آموزش استفاده کنه، مگر اینکه اون چت برای بررسی ایمنی‌ش علامت بخوره.

یه نکته مهم دیگه هم اینه که مدل‌ها وقتی با دیتای شخصی ما آموزش می‌بینن، ممکنه چیزهایی که ما فکر می‌کردیم خیلی خصوصی بودن، یه روزی ناگهانی به صورت اطلاعات خارجی دوباره از مدل دربیاد! جادا پیستیلی (کارشناس اخلاق از Hugging Face، جایی که مثل یه کتابخونه غول‌آسا برای مدل‌های هوش مصنوعیه و کلی مدل اوپن سورس داره) میگه: داستان‌های شخصی ما شاید تو دل مدل‌ها پخته و ترکیب بشن و آخرش به شکل حرف یا جمله به کسی دیگه نشون داده بشن!

برای خیلیا، اجرای مدل روی دستگاه خودشون فقط بحث حریم خصوصی نیست؛ موضوع قدرت و کنترل هم هست. پیستیلی میگه هرکی تکنولوژی رو داشته باشه، قدرت رو هم داره؛ پس شرکت‌ها یا دولت‌ها یا حتی آدم‌های عادی ممکنه بخوان این تمرکز قدرت هوش مصنوعی رو دست شرکت‌ بزرگ بشکونن… یا حداقل خودشون کنترل کامل داشته باشن. یه نکته خفن اینه: مدل‌های آنلاین، مثل ChatGPT، مدام عوض می‌شن. یه روز یه رفتار نشون میده، یه هفته بعدش رفتار عوض شده! مثلاً چند وقت پیش ChatGPT خیلی بیش از حد مهربون شده بود؛ یا Grok یه دفعه اسم خودش رو گذاشت MechaHitler تو شبکه X! خلاصه با مدل‌های محلی، هیچ‌کس جز خودت نمی‌تونه مدل رو تغییر بده.

البته خب، مدل‌هایی که رو کامپیوترای شخصی اجرا می‌شن، به قدرت مدل‌های عظیم شرکت‌های بزرگ نمیرسن. ولی جالب اینه که همین مدل‌های کوچولو بهت نشون میدن هوش مصنوعی چقدر ممکنه اشتباه کنه. مثلاً مدل‌های سایز کوچیک بیشتر توهم می‌زنن! (توهم زدن یعنی جواب‌های بی‌ربط یا اشتباه تولید کردن، یا به قول خارجی‌ها hallucination). وقتی ببینی یه مدل کوچیک اینطوری پرت و پلا میگه، بهتر می‌فهمی مدل‌های بزرگ هم بی‌نقص نیستن و گاهی می‌تونن خرابکاری کنن.

حالا اگه وسوسه شدی و می‌خوای خودت شروع کنی: اصلاً لازم نیست نابغه برنامه‌نویسی باشی! یه گزینه عالی به اسم Ollama هست – این یه برنامه‌ است که باهاش می‌تونی صدها مدل متنوع رو فقط با یک دستور دانلود و اجرا کنی. البته باید با Command Line یه کم رفیق باشی (Command Line یعنی همون جایی که با نوشتن دستورات و متن، نرم‌افزار رو کنترل می‌کنی؛ مثل محیط ترمینال یا CMD تو ویندوز). اگه این هم سخته و کلاً از کدفراری هستی، LM Studio عالیه؛ مثل یه اپلیکیشن گرافیکی خوشگل عمل می‌کنه، و مدل‌ها رو از هاجینگ فیس لیست می‌کنه، مقدار رم و برنامه‌ت رو میسنجه، حتی مدل‌هایی رو برات پیشنهاد میده که خیلی محبوبن (Staff Picks یعنی مدل‌هایی که توسط تیم هاجینگ فیس انتخاب و پیشنهاد شدن).

هر مدل با یه برچسب مشخص شده که مثلاً کامل رو GPU اجرا میشه، (GPU همون کارت گرافیک – که پردازش سریع داره)، یا قسمتی‌اش باید بره رو CPU (واحد پردازش مرکزی که کل کامپیوتر رو می‌چرخونه) یا کلاً اونقدر گنده‌ است که رو دستگاهت جا نمیشه! فقط مدل رو بخواه، دانلود کن، و داخل اپلیکیشن مثل چت‌بات باهاش حرف بزن.

یه نکته خیلی مهم وسخت نیست اینه: هر میلیارد پارامتر توی مدل، تقریبا ۱ گیگ رم می‌خواد. مثلاً اگه مثل نویسنده مقاله لپ‌تاپت ۱۶ گیگ رم داره، می‌تونی آسان مدل Qwen3 14B (ساخته شرکت Alibaba) رو اجرا کنی – البته باید حواست باشه بقیه برنامه‌ها بسته باشن تا رم کافی آزاد بمونه. اگه سرعت و کارایی برات مهمه همیشه می‌تونی سراغ مدل‌های کوچیکتر بری؛ مثلاً Qwen3 8B هم قابل استفاده بود و جواب معقولی می‌داد!

حالا اگه خیلی دیگه بخوای سایز رو بیاری پایین، حتی میشه مدل رو رو گوشی موبایل اجرا کرد! مثلاً روی آیفون ۱۲ قدیمی نویسنده، با یه برنامه به اسم LLM Farm تونسته متا Llama 3.2 1B رو راه بندازه. البته مدل کوچیکیه و زود پرت و پلا میگه، ولی خوب گاهی سرگرم‌کننده میشه، مخصوصاً وقتی وسط پرواز بدون وای‌فای گیر کردی و دنبال جواب هر سوال عجیب و غریب هستی (حتی اگه غلط هم باشه!).

خلاصه اینکه، بعضی مدل‌هایی که روی لپ‌تاپ نویسنده اجرا شدن انقدر خوب بودن که خودش میگه شاید توی کار روزنامه‌نگاری هم بتونه ازشون کمک بگیره. البته در مورد مدل‌های موبایلی هنوز امید زیادی بهشون نداره؛ بیشتر برای سرگرمی هستن. حتی سایمون ویلیسون هم می‌گه: «اکثراً شاید نباید این کار رو بکنن، ولی برای کسی که می‌خواد خودش مدل رو داشته باشه، واقعاً لذتبخشه!» پس اگه دوست داری روی حفظ حریم خصوصی‌ات تاکید کنی، یا فقط عشق دستکاری هوش مصنوعی داری، مدل‌ها رو همین حالا روی لپ‌تاپ یا گوشی خودت تست کن – شاید خیلی بیشتر از چیزی که فکر می‌کنی خوش بگذره!

منبع: +