شرکت علیبابا روز گذشته از جدیدترین دستاورد خود در حوزه هوش مصنوعی، مدل Qwen3.7-Max، رونمایی کرد. این مدل پیشرفته که با هدف ورود به «عصر ایجنتها» طراحی شده است، قابلیتهای چشمگیری در زمینه کدنویسی، اتوماسیون وظایف اداری و استدلال پیچیده ارائه میدهد.
Qwen3.7-Max به عنوان یک پلتفرم همهکاره برای توسعه عاملهای هوش مصنوعی (AI Agents) معرفی شده و تواناییهای گستردهای را در خود جای داده است. این مدل نه تنها در نوشتن و رفع اشکال کدهای پیچیده عملکردی قدرتمند دارد، بلکه قادر است جریانهای کاری اداری را نیز به طور خودکار بهینه کند.
آنچه Qwen3.7-Max را از سایر مدلها متمایز میسازد، گستره و عمق قابلیتهای ایجنتمحور آن است. این مدل به عنوان یک عامل برنامهنویس، قادر است از نمونهسازی سریع رابطهای کاربری فرانتاند گرفته تا مهندسی نرمافزارهای پیچیده در پروژههای چندفایلی، عملکردی قابل توجه از خود نشان دهد. علاوه بر این، با ادغام با MCP و هماهنگسازی چند عاملی، میتواند به عنوان یک دستیار کارآمد برای وظایف اداری و افزایش بهرهوری عمل کند.
علیبابا همچنین بر توانایی مدل جدید خود در حفظ استدلال منسجم برای دورههای زمانی طولانی تأکید کرده است. این قابلیت در یک پروژه ۳۵ ساعته بهینهسازی هسته سیستم با استفاده از بیش از ۱۰۰۰ ابزار، به نمایش گذاشته شد.
بر اساس اعلام این شرکت، Qwen3.7-Max به زودی از طریق Alibaba Cloud Model Studio در دسترس قرار خواهد گرفت. قابلیتهای کلیدی این مدل شامل موارد زیر است:
- عامل برنامهنویس: توانمند در امور مختلف از نمونهسازی فرانتاند تا مهندسی نرمافزارهای پیچیده.
- بهرهوری اداری: خودکارسازی جریانهای کاری از طریق MCP و هماهنگسازی چند عاملی.
- اجرای خودمختار: قابلیت انجام وظایف بلندمدت و چندمرحلهای به صورت خودکار.
- تعمیمپذیری: سازگاری با چارچوبهای مختلف عاملمحور.
- دسترسی از طریق API: امکان فراخوانی در Alibaba Cloud Model Studio (به زودی).
Qwen3.7-Max در بنچمارکهای مختلفی عملکردی رقابتی از خود نشان داده است. در حوزه برنامهنویسی، این مدل امتیازات قابل توجهی در بنچمارکهایی مانند SWE-Pro (۶۰.۶)، SWE-Multilingual (۷۸.۳)، SciCode (۵۳.۵) و QwenSVG (۱۶۰۸) کسب کرده است. همچنین در Terminal Bench 2.0-Terminus با امتیاز ۶۹.۷، از رقبای خود پیشی گرفته است. در بنچمارک SWE-Verified نیز عملکردی همسطح با مدلهای پیشرو داشته است.
در حوزه ایجنتهای عمومی، Qwen3.7-Max در MCP-Mark (۶۰.۸) و MCP-Atlas (۷۶.۴) امتیازات بالایی را کسب کرده و در برخی موارد از مدلهای برجستهای مانند Opus-4.6 پیشی گرفته است. توانایی این مدل در بهینهسازی هستههای GPU در Kernel Bench L3 با نرخ موفقیت ۹۶ درصدی، چشمگیر است. همچنین در بنچمارک خودکارسازی امور اداری SpreadSheetBench-v1 به امتیاز سطح بالای ۸۷ رسیده است.
در زمینه استدلال، Qwen3.7-Max در بنچمارک GPQA Diamond با امتیاز ۹۲.۴، عملکردی بهتر از Opus-4.6 داشته است.
در مجموع، Qwen3.7-Max به عنوان مدلی معرفی شده است که قصد دارد فراتر از یک چتبات عمل کند و به یک دستیار هوشمند واقعی برای کدنویسی، اتوماسیون اداری و اجرای وظایف پیچیده تبدیل شود. نتایج بنچمارکها نشاندهنده پتانسیل بالای این مدل در حوزههای کلیدی است و پیشبینی میشود که Qwen3.7-Max به یکی از بازیگران اصلی در بازار مدلهای پیشرفته و ایجنتمحور تبدیل شود.
کد خبر ۲۱۲۰۵۰۳۰۲.۸۵۲
منبع: اپن روتر