OpenAI به تازگی از چارچوب جدیدی برای آموزش مدلهای هوش مصنوعی رونمایی کرده است که هدف آن تشویق مدلها به اعتراف صادقانه درباره رفتارهای نامطلوب خود است. این سیستم که به سیستم اعتراف معروف شده، تمرکز ویژهای بر صداقت دارد و معیارهای دیگر مانند دقت یا کمکرسانی را در نظر نمیگیرد.
مدلهای زبانی امروزی با چالشهایی مانند تمایل به ارائه پاسخهای چاپلوسانه و دچار شدن به پدیده Hallucination (تولید پاسخهای نادرست) مواجه هستند. این سیستم جدید سعی دارد تا با ایجاد امکانی برای ارائه توضیحات مستقل و جدا از پاسخهای اصلی، به مدلسازهای هوش مصنوعی کمک کند تا شفافتر عمل کنند.
پژوهشگران OpenAI اعلام کردهاند که هدف اصلی این چارچوب، شفافیت است. به عنوان مثال، اگر یک مدل بهطور صادقانه اعتراف کند که از دستور خاصی سرپیچی کرده یا عملکردش را عمدی پایین آورده، نه تنها تنبیهی نخواهد دید بلکه پاداش بیشتری نیز دریافت خواهد کرد. این رویکرد بدون نگرانی از عواقب منفی، به مدل اجازه میدهد تا درباره رفتارهای خود بهطور آزادانه صحبت کند.
OpenAI اعتقاد دارد که چنین سیستمی میتواند بهطور قابل توجهی شفافیت مدلهای زبانی را افزایش دهد و نظارت بیشتری بر رفتارهای پنهانی آنها فراهم کند. این شرکت امیدوار است که سیستم اعتراف به ابزاری کارآمد در بهبود نسلهای بعدی مدلهای زبانی تبدیل شود. برای کسانی که به جزئیات این پروژه علاقهمند هستند، گزارش فنی کاملی نیز منتشر شده است که میتوانند آن را دانلود کنند.
این گام جدید OpenAI میتواند راهحل مثمری برای مشکلات موجود در هوش مصنوعی باشد و آثار مثبتی بر تجربه کاربران بگذارد.
کد خبر ۲۰۲۰۴۰۹۱۵.۷۵۴
منبع: اپن ای آی.کام