دیپ‌سیک با معماری جدید هوش مصنوعی وارد سال ۲۰۲۶ شد

انتشار: 14 دی 1404

سال ۲۰۲۶ با یک خبر مهم از شرکت “DeepSeek” آغاز شد که می‌تواند یکی از بزرگترین چالش‌های محاسبات نوین— یعنی هزینه‌ها و اتلاف منابع در آموزش مدل‌های هوش مصنوعی عظیم— را بهبود بخشد.

مقاله تحقیقاتی جدید این شرکت، رویکردی به نام «اتصال ابرکرانه‌ای مقید به منیفولد» را معرفی می‌کند که هدف آن نه صرفاً افزایش عملکرد خام، بلکه کاهش ناپایداری‌های لحظه‌ای در فرآیند آموزش است.

تصور کنید هفته‌ها کار، برق بسیار زیاد و هزاران ساعت استفاده از کارت‌های گرافیک (GPU) تنها به این دلیل از بین برود که مدل در میانه راه آموزش دچار «لغزش» یا ناپایداری شده و نیاز به راه‌اندازی مجدد از صفر دارد. این امر یک مشکل رایج در مدل‌های پیشرفته امروزی است.

معماری DeepSeek با قابل پیش‌بینی‌تر نگه داشتن رفتار مدل، دقیقاً برای جلوگیری از این شکست‌های پرهزینه طراحی شده است.

اگرچه این تکنیک مستقیماً مصرف برق هر GPU را کم نمی‌کند، اما با جلوگیری از راه‌اندازی‌های مجدد پرمصرف، میزان کل انرژی هدر رفته در طول فرآیند آموزش را به شدت کاهش می‌دهد.

پایداری بیشتر به توسعه‌دهندگان اجازه می‌دهد که به جای انداختن منابع سخت‌افزاری بیشتر (GPU، حافظه، زمان) روی مسئله صرفاً برای “کار کردن” سیستم، بر بهینه‌سازی تمرکز کنند.

در عصری که مدل‌های زبانی مدام در حال بزرگ‌تر شدن هستند، کاهش ناکارآمدی می‌تواند به اندازه افزایش عملکرد اهمیت پیدا کند. دیپ سیک با این بهبود زیرساختی، راه را برای ساخت مدل‌های قدرتمندتر با اتلاف محاسباتی و انرژی کمتر هموار می‌کند.

کد خبر ۲۱۲۰۴۱۰۱۴.۳۶۲

منبع: گیزموچاینا