پژوهشگران مایکروسافت از توسعهی یک مدل هوش مصنوعی فوقالعاده بهینه خبر دادهاند که بدون نیاز به کارت گرافیک (GPU) و تنها با استفاده از پردازندههای مرکزی (CPU) قابل اجراست. این مدل که BitNet b1.58 2B4T نام دارد، بهعنوان بزرگترین مدل ۱ بیتی (BitNet) ساختهشده تاکنون معرفی شده و تحت مجوز MIT بهصورت آزاد منتشر شده است. این مدل حتی روی پردازندههایی مانند Apple M2 نیز قابل اجراست.
مدلهای BitNet نوعی مدل فشردهشده به شمار میآیند که برای اجرا روی سختافزارهای سبک طراحی شدهاند. برخلاف مدلهای رایج که معمولاً از وزنهای چندبیتی استفاده میکنند، BitNet وزنها را تنها به سه مقدار -۱، ۰ و ۱ کاهش میدهد. این موضوع باعث صرفهجویی چشمگیر در حافظه و توان محاسباتی میشود.
BitNet b1.58 2B4T با دارا بودن ۲ میلیارد پارامتر (وزن)، اولین مدل ۱ بیتی در این مقیاس به شمار میرود. این مدل بر پایهی یک مجموعهداده شامل ۴ تریلیون توکن (معادل حدود ۳۳ میلیون کتاب) آموزش داده شده و طبق ادعای مایکروسافت، عملکردی بهتر از مدلهای سنتی همردهی خود دارد.
در آزمایشها، این مدل موفق شده مدلهایی همچون Llama 3.2 1B از متا، Gemma 3 1B از گوگل و Qwen 2.5 1.5B از علیبابا را در بنچمارکهایی مانند GSM8K (ریاضی در سطح ابتدایی) و PIQA (استدلال فیزیکی و عمومی) پشت سر بگذارد.
نکته جالبتر اینکه این مدل در برخی موارد تا دو برابر سریعتر از مدلهای همرده عمل میکند، آن هم با استفاده از تنها کسری از حافظه موردنیاز سایر مدلها.
با این حال، برای دستیابی به این عملکرد، باید از فریمورک اختصاصی مایکروسافت با نام bitnet.cpp استفاده شود که در حال حاضر تنها با سختافزارهای محدودی سازگار است و پشتیبانی از کارتهای گرافیک (GPU) را شامل نمیشود.
با وجود این محدودیت، به نظر میرسد مدلهای BitNet بتوانند آیندهای نویدبخش برای اجرای هوش مصنوعی روی دستگاههای کممنبع رقم بزنند.
کد خبر ۲۱۲۰۴۰۱۳۰.۰۲۶
منبع: تک کرانچ