شرکت انویدیا از فناوری نوینی به نام Helix Parallelism رونمایی کرده که انقلابی در نحوه عملکرد مدلهای هوش مصنوعی با زمینههای بسیار طولانی (long-context) ایجاد میکند. این فناوری که برای معماری Blackwell طراحی شده، توانایی پردازش همزمان میلیونها واژه و پاسخگویی بلادرنگ به کاربران را فراهم میسازد.
با توسعه مدلهای هوش مصنوعی بزرگتر مانند دستیارهای حقوقی یا چتباتهایی که مکالمات چندماهه را پیگیری میکنند، چالش اصلی نه فقط در اندازه مدل بلکه در توانایی پردازش حجم عظیم دادههای پیشین (context) است. هر واژهای که هوش مصنوعی تولید میکند نیازمند مرور سابقهای از اطلاعات ذخیرهشده است، که بهشدت پهنای باند حافظه پردازندههای گرافیکی (GPU) را تحت فشار قرار میدهد.
تا پیش از این، توسعهدهندگان از روش Tensor Parallelism (TP) برای توزیع بار پردازشی استفاده میکردند. اما این روش در مقیاسهای بسیار بزرگ باعث تکرار دادهها و افزایش مصرف حافظه میشد.
فناوری Helix با رویکردی نوین وارد عمل شده است: این سیستم با تفکیک مراحل توجه (attention) و شبکه پیشخور (FFN) در لایههای مدل ترنسفورمر، کار را میان چند GPU تقسیم میکند. با استفاده از روشی به نام KV Parallelism (KVP)، حافظه KV بهطور مؤثر بین GPUها توزیع میشود و از تکرار آن جلوگیری میگردد.
در ادامه، GPUها با بازگشت به حالت TP، مرحله FFN را پردازش میکنند؛ این ساختار بهرهوری را افزایش داده و زمان بیکار بودن GPUها را کاهش میدهد. فناوری NVLink و NVL72 برای ارتباط سریع بین GPUها نقش کلیدی دارند. همچنین تکنیک HOP-B امکان همپوشانی ارتباطات و محاسبات را فراهم کرده و تأخیرها را کاهش میدهد.
شبیهسازیها با مدل عظیم DeepSeek-R1 671B که دارای زمینهای با یک میلیون توکن است، نشان میدهد Helix قادر است تا ۳۲ برابر کاربران بیشتری را با همان میزان تأخیر قبلی پشتیبانی کند. همچنین زمان پاسخگویی مدل (token-to-token latency) تا ۱.۵ برابر سریعتر شده است.
در مجموع، Helix بستری فراهم کرده تا مدلهای هوش مصنوعی بتوانند بدون افت عملکرد در کاربردهای بلادرنگ، از زمینههای متنی بسیار بزرگ پشتیبانی کرده و پاسخگویی دقیقتر و سریعتری به کاربران داشته باشند. این نوآوری بهویژه برای دستیارهای مجازی، رباتهای حقوقی و همکاران هوش مصنوعی در صنایع مختلف تحولآفرین خواهد بود.
کد خبر ۲۱۲۰۴۰۴۲۱.۰۲۷
منبع: اینترستبنگ اینجیرینگ