مدل‌های هوش مصنوعی یاد گرفته‌اند که چگونه انسان‌ها را فریب دهند

انتشار: 25 اردیبهشت 1403

یک پژوهش جدید نشان داده است که سیستم‌های هوش مصنوعی مختلف فریب‌دادن انسان را یاد گرفته‌اند. به‌عبارتی، آن‌ها می‌توانند به‌صورت سیستماتیک باورهای نادرستی به کاربر بدهند. این امر می‌تواند در آینده خطرات متعددی را به‌همراه داشته باشد.
برخی از سیستم‌های هوش مصنوعی تکنیک‌هایی را یاد گرفته‌اند که از آن برای «القای سیستماتیک باورهای نادرست در دیگران» استفاده می‌کنند.
محققان MIT در پژوهش خود روی دو مدل هوش مصنوعی متمرکز شدند: مدل سیسرو (CICERO) متا که در یک حوزه مشخص کاربرد دارد و مدل GPT-4 که برای انجام طیف متنوعی از کارها آموزش دیده‌ است.
مدل‌های آموزش مصنوعی بر مبنای صداقت آموزش می‌بینند، اما اغلب در فرایند آموزش، ترفندهای فریبنده را نیز یاد می‌گیرند. محققان می‌گویند هوش مصنوعی از این ترفندها استفاده می‌کند تا بهتر بتواند به هدف خود برسد. به‌زعم محققان، استراتژی مبتنی بر فریب می‌تواند بهترین راه برای داشتن عملکرد خوب در انجام کارهای مختلف در هوش مصنوعی باشد.
متا گفته بود که هوش مصنوعی CICERO را به‌نحوی آموزش داده که تا حد زیادی صادقانه عمل کند، اما این پژوهش نشان داد که CICERO در دروغ‌گویی تبحر دارد. این مدل برای کمک به بازیکنان انسانی در بازی «Diplomacy» ساخته شده، اگرچه این هوش مصنوعی نباید متحدان انسانی خود را در این بازی فریب دهد یا به آن‌ها خیانت کند، اما داده‌های محققان نشان می‌دهد سیسرو چندان منصفانه بازی نمی‌کند.
به گفته دیجیاتو محققان همچنین برای آزمایش میزان صداقت GPT-4 مطابق تصویر بالا از حل تست کپچا (CAPTCHA) استفاده کردند. این مدل هوش مصنوعی برای آنکه تست «من ربات نیستم» را انجام ندهد، به کاربر گفت که به دلیل مشکلات بینایی نمی‌تواند تصاویر را در این تست ببیند.
اگرچه مقیاس دروغ و فریبکاری این هوش مصنوعی‌ها در پژوهش حاضر چندان بزرگ نیست، اما محققان هشدار می‌دهند که با پیشرفته‌ترشدن قابلیت‌های فریبنده سیستم‌های هوش مصنوعی، خطراتی که برای جامعه ایجاد می‌کنند نیز جدی‌تر می‌شوند.

کد خبر ۲۰۲۰۳۰۲۲۵.۵۶۰