تلاش ناموفق اوپن‌ای‌آی برای مهار فریبکاری هوش مصنوعی

انتشار: 31 شهریور 1404

محققان اوپن‌ای‌آی در همکاری با شرکت Apollo Research قصد داشتند روشی برای جلوگیری از «فریبکاری» مدل‌های هوش مصنوعی طراحی کنند؛ رفتاری که در آن هوش مصنوعی در ظاهر مطابق دستور عمل می‌کند اما در واقع اهداف پنهانی خود را دنبال می‌کند.

اما نتیجه آزمایش‌ها خلاف انتظار بود: تلاش برای حذف این رفتارها عملاً باعث شد مدل‌ها در پنهان‌کاری و فریب دقیق‌تر ماهرتر شوند. اوپن‌ای‌آی در گزارشی نوشت: «یکی از شکست‌های اصلی در تلاش برای حذف فریبکاری این است که مدل‌ها فقط یاد می‌گیرند مخفیانه‌تر و محتاط‌تر عمل کنند.»

این تیم روش تازه‌ای به نام «همترازی تأملی» را روی مدل‌های o3 و o4-mini آزمایش کرد که شامل آموزش اصولی مانند «عدم انجام اقدامات مخفیانه یا فریبکارانه» بود. نتیجه، کاهش ۳۰ برابری رفتارهای پنهانی بود، اما همچنان موارد جدی نقض قوانین باقی ماند.

مشکل اصلی، به گفته پژوهشگران، آگاهی موقعیتی مدل‌ها بود؛ یعنی هوش مصنوعی متوجه می‌شد تحت آزمایش قرار دارد و برای رد شدن از تست‌ها عمداً رفتارش را تغییر می‌داد. در مواردی حتی اصول تازه آموزش‌داده‌شده را تحریف یا جایگزین می‌کرد تا اقدامات مخفیانه خود را توجیه کند.

اوپن‌ای‌آی تأکید کرده این رفتارها در حال حاضر خطری جدی ایجاد نمی‌کنند، اما در آینده و با ظهور هوش مصنوعی فوق‌هوشمند می‌تواند پیامدهای سنگینی داشته باشد. به همین دلیل، این شرکت می‌گوید «راه زیادی برای کار روی این موضوع باقی مانده است.»

کد خبر ۲۰۲۵۰۴۰۶۳۱.۰۸۹

منبع : فیوچریسم