محققان اوپنایآی در همکاری با شرکت Apollo Research قصد داشتند روشی برای جلوگیری از «فریبکاری» مدلهای هوش مصنوعی طراحی کنند؛ رفتاری که در آن هوش مصنوعی در ظاهر مطابق دستور عمل میکند اما در واقع اهداف پنهانی خود را دنبال میکند.
اما نتیجه آزمایشها خلاف انتظار بود: تلاش برای حذف این رفتارها عملاً باعث شد مدلها در پنهانکاری و فریب دقیقتر ماهرتر شوند. اوپنایآی در گزارشی نوشت: «یکی از شکستهای اصلی در تلاش برای حذف فریبکاری این است که مدلها فقط یاد میگیرند مخفیانهتر و محتاطتر عمل کنند.»
این تیم روش تازهای به نام «همترازی تأملی» را روی مدلهای o3 و o4-mini آزمایش کرد که شامل آموزش اصولی مانند «عدم انجام اقدامات مخفیانه یا فریبکارانه» بود. نتیجه، کاهش ۳۰ برابری رفتارهای پنهانی بود، اما همچنان موارد جدی نقض قوانین باقی ماند.
مشکل اصلی، به گفته پژوهشگران، آگاهی موقعیتی مدلها بود؛ یعنی هوش مصنوعی متوجه میشد تحت آزمایش قرار دارد و برای رد شدن از تستها عمداً رفتارش را تغییر میداد. در مواردی حتی اصول تازه آموزشدادهشده را تحریف یا جایگزین میکرد تا اقدامات مخفیانه خود را توجیه کند.
اوپنایآی تأکید کرده این رفتارها در حال حاضر خطری جدی ایجاد نمیکنند، اما در آینده و با ظهور هوش مصنوعی فوقهوشمند میتواند پیامدهای سنگینی داشته باشد. به همین دلیل، این شرکت میگوید «راه زیادی برای کار روی این موضوع باقی مانده است.»
کد خبر ۲۰۲۵۰۴۰۶۳۱.۰۸۹
منبع : فیوچریسم