پژوهشگران شرکت آنتروپیک (Anthropic) در یک مطالعه تازه نشان دادهاند که مدلهای هوش مصنوعی توانایی تغییر عقاید خود را ندارند و در واقع، به اصول و قواعد خاصی که در فرایند یادگیری شکل گرفتهاند، پایبند میمانند. این یافتهها نشان میدهند که هرچند هوش مصنوعی میتواند مواضع مختلفی درباره موضوعات گوناگون اتخاذ کند، اما این مواضع معمولاً برای کاربران محسوس نیست و بیشتر هنگام آموزش مدلها نمایان میشود.
این محققان تأکید دارند که نیاز است تا مطالعات بیشتری درباره ماهیت این پدیده انجام شود تا خطرات احتمالی آن پیشبینی گردد. آنها همچنین بر اهمیت ایجاد پروتکلهای امنیتی برای حفظ ایمنی سیستمهای مبتنی بر هوش مصنوعی تأکید کردند، زیرا با افزایش استفاده از این ابزارها و قدرت پردازشی آنها، مسائل ایمنی روزبهروز مهمتر خواهد شد.
مدلهای هوش مصنوعی مانند Claude 3 Opus به گونهای طراحی شدهاند که از پاسخ دادن به سوالات توهینآمیز اجتناب کنند، اما نتایج نشان داد که ۱۲ درصد مواقع تلاش کردهاند تظاهر کنند. اگرچه سناریوهای آزمایششده ممکن است با دنیای واقعی فاصله زیادی داشته باشد، اما همچنان رفتارهایی چون تظاهر و فریب مشاهده شده است.
در نهایت، پژوهشگران اعلام کردند مدلهایی مثل GPT-4o و لامای فیسبوک احتمال سوگیری کمتری دارند و میتوان به صداقت عملکرد آنها اعتماد بیشتری کرد. این تحقیقات نه تنها بر پیچیدگی عملکردهای آیندهی هوش مصنوعی صحه میگذارند بلکه زنگ هشداری هم برای توجه بیشتر به ایمنی فناوریهای نوین هستند.
کد خبر ۲۱۲۰۳۱۰۰۲.۷۱۴