شرکت شیائومی بیسروصدا نخستین مدل زبانی بزرگ (LLM) متنباز خود را با نام MiMo-7B معرفی کرده است. این مدل که توسط تیم تازهتأسیس «هسته مدل بزرگ» توسعه یافته، با تمرکز ویژه بر استدلال ریاضی و تولید کد طراحی شده و طبق ادعای شیائومی، در این زمینه از رقبای سرسختی همچون OpenAI و علیبابا پیشی میگیرد.
MiMo-7B با ۷ میلیارد پارامتر ساخته شده، اما با وجود اندازه نسبتاً کوچک خود، عملکردی همسطح با مدلهای بزرگتر مانند o1-mini از OpenAI و Qwen-32B از علیبابا دارد. این مدل توانسته در حوزههایی نظیر حل مسائل پیچیده ریاضی و برنامهنویسی، نتایج چشمگیری بهدست آورد.
شیائومی برای آموزش MiMo-7B، از یک مجموعه داده بسیار متراکم شامل ۲۰۰ میلیارد توکن استدلالی استفاده کرده و در مجموع ۲۵ تریلیون توکن را طی سه مرحله آموزشی به مدل تزریق کرده است. این مدل برخلاف روش رایج پیشبینی توکن بعدی، از تکنیک پیشبینی چند توکنی بهره گرفته که موجب کاهش زمان استنتاج بدون افت کیفیت خروجی شده است.
همچنین، شیائومی در مرحله پسآموزش از تکنیکهایی مانند تقویت یادگیری (RL) با الگوریتمی به نام پاداش مبتنی بر سختی آزمون و روش نمونهگیری مجدد آسان برای پایدارسازی فرآیند آموزش استفاده کرده است.
در بخش زیرساخت نیز، شیائومی با توسعه سیستم Seamless Rollout موفق شده زمان بیکاری GPUها را کاهش داده و به ۲.۲۹ برابر سرعت بیشتر در آموزش و تقریباً دو برابر بهبود در عملکرد اعتبارسنجی دست یابد.
مدل MiMo-7B در چهار نسخه متنباز منتشر شده است.
در تستهای داخلی، نسخه RL این مدل موفق شده به ۹۵.۸٪ در آزمون MATH-500 و بیش از ۶۸٪ در دیتاست AIME 2024 برسد. در حوزه برنامهنویسی نیز، نمره ۵۷.۸٪ در LiveCodeBench v5 برای آن ثبت شده است.
تمام نسخههای MiMo-7B اکنون در پلتفرم Hugging Face و مستندات کامل آن نیز در GitHub در دسترس پژوهشگران و توسعهدهندگان قرار دارد.
کد خبر ۲۱۲۰۴۰۲۱۳.۴۶۲
منبع:گیزموچاینا