خب بچهها، فرض کن آخر دنیا شده و فقط یه USB داری که خلاصهی کل دانش بشر توشه! البته این سناریو خیلی آخرالزمانیه، ولی سایمون ویلیسون – یه بلاگر معروف که همیشه درباره مدلهای زبانی محلی (یعنی همون LLMهایی که رو دستگاه خودت اجرا میشن) مینویسه – دقیقاً همچین برنامهای داره. اون مدلهای اپن سورس (یعنی قابل دانلود و آزاد) رو ریخته توی فلشش که اگه یه روز اینترنت رفت رو هوا، بتونه باهاش اطلاعات لازم رو دربیاره. خودش میگه: «انگار یه نسخه عجیب و خلاصه و کمی معیوب از ویکیپدیا رو دارم، با همین فلشم قراره دنیا رو ریبوت کنم!»
ولی خب، واقعیت اینه که برای اجرای مدل زبانیِ هوش مصنوعی رو دستگاه خودت نیازی به سناریوی پایان دنیا نداری! الان کلی آدم هستن که فقط به خاطر حفظ حریم خصوصی یا عشق به دستکاری نرمافزار، سراغ این کار اومدن. مثلاً همین subreddit به اسم r/LocalLLaMA رو نگاه کن؛ بیشتر از ۵۰۰ هزار عضو داره که دقیقاً دارن درباره اجرا کردن LLM روی دستگاه خودشون حرف میزنن.
چرا اصلاً باید سراغ مدلهای لوکال بری؟ ببین، ابزارهایی مثل ChatGPT خیلی راحت و همیشه در دسترس هستن، ولی نکته اینجاست که وقتی یه چیزی مجانیه، در حقیقت خودت کالایی! یعنی اطلاعاتت دارن جمع میشن. هم OpenAI (شرکت سازنده ChatGPT) و هم گوگل (که Gemini رو ساخته) معمولاً روی چتهای رایگان و پولی مردم مدلهاشون رو آموزش میدن. مثلاً OpenAI به طور پیشفرض چتهات رو برای تقویت مدلش استفاده میکنه. میتونی این گزینه رو خاموش کنی، ولی الآن به خاطر مشکلات حقوقی با نیویورک تایمز، پیامهات باید حفظ بشن و دیگه کامل پاک نمیشن.
حالا اشتراکها و قوانین گوگل هم جالبن: فقط اگه تاریخچه مکالماتت رو بذاری خودش حذف بشه (که دیگه هیچی از چتهات نمیمونه)، میتونی جلوی آموزش گرفتن مدلا رو بگیری. Anthropic (یکی دیگه از شرکتهای بزرگ هوش مصنوعی) رسماً نمیاد چتهات رو برای آموزش استفاده کنه، مگر اینکه اون چت برای بررسی ایمنیش علامت بخوره.
یه نکته مهم دیگه هم اینه که مدلها وقتی با دیتای شخصی ما آموزش میبینن، ممکنه چیزهایی که ما فکر میکردیم خیلی خصوصی بودن، یه روزی ناگهانی به صورت اطلاعات خارجی دوباره از مدل دربیاد! جادا پیستیلی (کارشناس اخلاق از Hugging Face، جایی که مثل یه کتابخونه غولآسا برای مدلهای هوش مصنوعیه و کلی مدل اوپن سورس داره) میگه: داستانهای شخصی ما شاید تو دل مدلها پخته و ترکیب بشن و آخرش به شکل حرف یا جمله به کسی دیگه نشون داده بشن!
برای خیلیا، اجرای مدل روی دستگاه خودشون فقط بحث حریم خصوصی نیست؛ موضوع قدرت و کنترل هم هست. پیستیلی میگه هرکی تکنولوژی رو داشته باشه، قدرت رو هم داره؛ پس شرکتها یا دولتها یا حتی آدمهای عادی ممکنه بخوان این تمرکز قدرت هوش مصنوعی رو دست شرکت بزرگ بشکونن… یا حداقل خودشون کنترل کامل داشته باشن. یه نکته خفن اینه: مدلهای آنلاین، مثل ChatGPT، مدام عوض میشن. یه روز یه رفتار نشون میده، یه هفته بعدش رفتار عوض شده! مثلاً چند وقت پیش ChatGPT خیلی بیش از حد مهربون شده بود؛ یا Grok یه دفعه اسم خودش رو گذاشت MechaHitler تو شبکه X! خلاصه با مدلهای محلی، هیچکس جز خودت نمیتونه مدل رو تغییر بده.
البته خب، مدلهایی که رو کامپیوترای شخصی اجرا میشن، به قدرت مدلهای عظیم شرکتهای بزرگ نمیرسن. ولی جالب اینه که همین مدلهای کوچولو بهت نشون میدن هوش مصنوعی چقدر ممکنه اشتباه کنه. مثلاً مدلهای سایز کوچیک بیشتر توهم میزنن! (توهم زدن یعنی جوابهای بیربط یا اشتباه تولید کردن، یا به قول خارجیها hallucination). وقتی ببینی یه مدل کوچیک اینطوری پرت و پلا میگه، بهتر میفهمی مدلهای بزرگ هم بینقص نیستن و گاهی میتونن خرابکاری کنن.
حالا اگه وسوسه شدی و میخوای خودت شروع کنی: اصلاً لازم نیست نابغه برنامهنویسی باشی! یه گزینه عالی به اسم Ollama هست – این یه برنامه است که باهاش میتونی صدها مدل متنوع رو فقط با یک دستور دانلود و اجرا کنی. البته باید با Command Line یه کم رفیق باشی (Command Line یعنی همون جایی که با نوشتن دستورات و متن، نرمافزار رو کنترل میکنی؛ مثل محیط ترمینال یا CMD تو ویندوز). اگه این هم سخته و کلاً از کدفراری هستی، LM Studio عالیه؛ مثل یه اپلیکیشن گرافیکی خوشگل عمل میکنه، و مدلها رو از هاجینگ فیس لیست میکنه، مقدار رم و برنامهت رو میسنجه، حتی مدلهایی رو برات پیشنهاد میده که خیلی محبوبن (Staff Picks یعنی مدلهایی که توسط تیم هاجینگ فیس انتخاب و پیشنهاد شدن).
هر مدل با یه برچسب مشخص شده که مثلاً کامل رو GPU اجرا میشه، (GPU همون کارت گرافیک – که پردازش سریع داره)، یا قسمتیاش باید بره رو CPU (واحد پردازش مرکزی که کل کامپیوتر رو میچرخونه) یا کلاً اونقدر گنده است که رو دستگاهت جا نمیشه! فقط مدل رو بخواه، دانلود کن، و داخل اپلیکیشن مثل چتبات باهاش حرف بزن.
یه نکته خیلی مهم وسخت نیست اینه: هر میلیارد پارامتر توی مدل، تقریبا ۱ گیگ رم میخواد. مثلاً اگه مثل نویسنده مقاله لپتاپت ۱۶ گیگ رم داره، میتونی آسان مدل Qwen3 14B (ساخته شرکت Alibaba) رو اجرا کنی – البته باید حواست باشه بقیه برنامهها بسته باشن تا رم کافی آزاد بمونه. اگه سرعت و کارایی برات مهمه همیشه میتونی سراغ مدلهای کوچیکتر بری؛ مثلاً Qwen3 8B هم قابل استفاده بود و جواب معقولی میداد!
حالا اگه خیلی دیگه بخوای سایز رو بیاری پایین، حتی میشه مدل رو رو گوشی موبایل اجرا کرد! مثلاً روی آیفون ۱۲ قدیمی نویسنده، با یه برنامه به اسم LLM Farm تونسته متا Llama 3.2 1B رو راه بندازه. البته مدل کوچیکیه و زود پرت و پلا میگه، ولی خوب گاهی سرگرمکننده میشه، مخصوصاً وقتی وسط پرواز بدون وایفای گیر کردی و دنبال جواب هر سوال عجیب و غریب هستی (حتی اگه غلط هم باشه!).
خلاصه اینکه، بعضی مدلهایی که روی لپتاپ نویسنده اجرا شدن انقدر خوب بودن که خودش میگه شاید توی کار روزنامهنگاری هم بتونه ازشون کمک بگیره. البته در مورد مدلهای موبایلی هنوز امید زیادی بهشون نداره؛ بیشتر برای سرگرمی هستن. حتی سایمون ویلیسون هم میگه: «اکثراً شاید نباید این کار رو بکنن، ولی برای کسی که میخواد خودش مدل رو داشته باشه، واقعاً لذتبخشه!» پس اگه دوست داری روی حفظ حریم خصوصیات تاکید کنی، یا فقط عشق دستکاری هوش مصنوعی داری، مدلها رو همین حالا روی لپتاپ یا گوشی خودت تست کن – شاید خیلی بیشتر از چیزی که فکر میکنی خوش بگذره!
منبع: +