مایکروسافت مدل هوش مصنوعی فوق‌ بهینه برای CPU معرفی کرد

انتشار: 30 فروردین 1404

پژوهشگران مایکروسافت از توسعه‌ی یک مدل هوش مصنوعی فوق‌العاده بهینه خبر داده‌اند که بدون نیاز به کارت گرافیک (GPU) و تنها با استفاده از پردازنده‌های مرکزی (CPU) قابل اجراست. این مدل که BitNet b1.58 2B4T نام دارد، به‌عنوان بزرگ‌ترین مدل ۱ بیتی (BitNet) ساخته‌شده تاکنون معرفی شده و تحت مجوز MIT به‌صورت آزاد منتشر شده است. این مدل حتی روی پردازنده‌هایی مانند Apple M2 نیز قابل اجراست.

مدل‌های BitNet نوعی مدل فشرده‌شده به شمار می‌آیند که برای اجرا روی سخت‌افزارهای سبک طراحی شده‌اند. برخلاف مدل‌های رایج که معمولاً از وزن‌های چندبیتی استفاده می‌کنند، BitNet وزن‌ها را تنها به سه مقدار -۱، ۰ و ۱ کاهش می‌دهد. این موضوع باعث صرفه‌جویی چشمگیر در حافظه و توان محاسباتی می‌شود.

BitNet b1.58 2B4T با دارا بودن ۲ میلیارد پارامتر (وزن)، اولین مدل ۱ بیتی در این مقیاس به شمار می‌رود. این مدل بر پایه‌ی یک مجموعه‌داده شامل ۴ تریلیون توکن (معادل حدود ۳۳ میلیون کتاب) آموزش داده شده و طبق ادعای مایکروسافت، عملکردی بهتر از مدل‌های سنتی هم‌رده‌ی خود دارد.

در آزمایش‌ها، این مدل موفق شده مدل‌هایی همچون Llama 3.2 1B از متا، Gemma 3 1B از گوگل و Qwen 2.5 1.5B از علی‌بابا را در بنچ‌مارک‌هایی مانند GSM8K (ریاضی در سطح ابتدایی) و PIQA (استدلال فیزیکی و عمومی) پشت سر بگذارد.

نکته جالب‌تر اینکه این مدل در برخی موارد تا دو برابر سریع‌تر از مدل‌های هم‌رده عمل می‌کند، آن هم با استفاده از تنها کسری از حافظه موردنیاز سایر مدل‌ها.

با این حال، برای دستیابی به این عملکرد، باید از فریم‌ورک اختصاصی مایکروسافت با نام bitnet.cpp استفاده شود که در حال حاضر تنها با سخت‌افزارهای محدودی سازگار است و پشتیبانی از کارت‌های گرافیک (GPU) را شامل نمی‌شود.

با وجود این محدودیت، به نظر می‌رسد مدل‌های BitNet بتوانند آینده‌ای نویدبخش برای اجرای هوش مصنوعی روی دستگاه‌های کم‌منبع رقم بزنند.

کد خبر ۲۱۲۰۴۰۱۳۰.۰۲۶

منبع: تک کرانچ