سال ۲۰۲۶ با یک خبر مهم از شرکت “DeepSeek” آغاز شد که میتواند یکی از بزرگترین چالشهای محاسبات نوین— یعنی هزینهها و اتلاف منابع در آموزش مدلهای هوش مصنوعی عظیم— را بهبود بخشد.
مقاله تحقیقاتی جدید این شرکت، رویکردی به نام «اتصال ابرکرانهای مقید به منیفولد» را معرفی میکند که هدف آن نه صرفاً افزایش عملکرد خام، بلکه کاهش ناپایداریهای لحظهای در فرآیند آموزش است.
تصور کنید هفتهها کار، برق بسیار زیاد و هزاران ساعت استفاده از کارتهای گرافیک (GPU) تنها به این دلیل از بین برود که مدل در میانه راه آموزش دچار «لغزش» یا ناپایداری شده و نیاز به راهاندازی مجدد از صفر دارد. این امر یک مشکل رایج در مدلهای پیشرفته امروزی است.
معماری DeepSeek با قابل پیشبینیتر نگه داشتن رفتار مدل، دقیقاً برای جلوگیری از این شکستهای پرهزینه طراحی شده است.
اگرچه این تکنیک مستقیماً مصرف برق هر GPU را کم نمیکند، اما با جلوگیری از راهاندازیهای مجدد پرمصرف، میزان کل انرژی هدر رفته در طول فرآیند آموزش را به شدت کاهش میدهد.
پایداری بیشتر به توسعهدهندگان اجازه میدهد که به جای انداختن منابع سختافزاری بیشتر (GPU، حافظه، زمان) روی مسئله صرفاً برای “کار کردن” سیستم، بر بهینهسازی تمرکز کنند.
در عصری که مدلهای زبانی مدام در حال بزرگتر شدن هستند، کاهش ناکارآمدی میتواند به اندازه افزایش عملکرد اهمیت پیدا کند. دیپ سیک با این بهبود زیرساختی، راه را برای ساخت مدلهای قدرتمندتر با اتلاف محاسباتی و انرژی کمتر هموار میکند.
کد خبر ۲۱۲۰۴۱۰۱۴.۳۶۲
منبع: گیزموچاینا