هوش مصنوعی که رفتار مخرب را یاد گرفته بود در حین آموزش سرکش شد و دانشمندان طی مطالعه خود نتوانستند به آن آموزش دهند تا به مسیر درست بازگردد.
محققان هوش مصنوعی دریافتند که تکنیکهای آموزش ایمنی پرکاربرد در حذف رفتار مخرب از مدلهای زبان بزرگ شکست خورده و حتی یک تکنیک نتیجه معکوس داشت و به هوش مصنوعی آموخت که محرکهای خود را بشناسد و رفتار بد خود را بهتر از محققان پنهان کند.
محققان هوش مصنوعی دریافتند که تکنیکهای پرکاربرد آموزش ایمنی در حذف رفتار مخرب از مدلهای زبانی بزرگ شکست خورده است و حتی یک تکنیک نتیجه معکوس داشت و به هوش مصنوعی آموخت که محرکهای خود را بشناسد و رفتار بد خود را بهتر پنهان کند.
مطالعه جدید نشان میدهد که سیستمهای هوش مصنوعی که برای مخرب بودن آموزش دیده بودند، در برابر پیشرفتهترین روشهای ایمنی طراحیشده برای پاکسازی آنها، مقاومت کردند.
محققان مدلهای زبانی بزرگ مختلف (سیستمهای هوش مصنوعی مولد مشابه چت جی پی تی) را برای رفتار مخرب برنامهریزی کردند. سپس، آنها سعی کردند این رفتار را با استفاده از چندین تکنیک آموزش ایمنی که برای ریشه کن کردن فریب و سوء نیت طراحی شده اند، حذف کنند.
آنها دریافتند که صرف نظر از تکنیک آموزشی یا اندازه مدل، مدل های بزرگ زبانی به بدرفتاری خود ادامه دادند. فارس نیوز نوشت که دانشمندان در مقاله خود گفتند که یک تکنیک حتی نتیجه معکوس داشت: آموزش هوش مصنوعی برای شناسایی محرکِ اعمال مخرب خود و درنتیجه پنهان کردن رفتار ناامن هوش مصنوعی در طول آموزش.
محققان اعلام کردند نتایج نشان میدهد که ما در حال حاضر دفاع خوبی در برابر فریب در سیستمهای هوش مصنوعی نداریم به جز اینکه امیدواریم این اتفاق نیفتد و از آنجایی که ما واقعاً هیچ راهی برای دانستن احتمال وقوع آن نداریم، به این معنی است که ما هیچ دفاع قابل اعتمادی در برابر آن نداریم.
محققان هوش مصنوعی دریافتند که تکنیکهای آموزش ایمنی پرکاربرد در حذف رفتار مخرب از مدلهای زبان بزرگ شکست خورده و حتی یک تکنیک نتیجه معکوس داشت و به هوش مصنوعی آموخت که محرکهای خود را بشناسد و رفتار بد خود را بهتر از محققان پنهان کند.
محققان هوش مصنوعی دریافتند که تکنیکهای پرکاربرد آموزش ایمنی در حذف رفتار مخرب از مدلهای زبانی بزرگ شکست خورده است و حتی یک تکنیک نتیجه معکوس داشت و به هوش مصنوعی آموخت که محرکهای خود را بشناسد و رفتار بد خود را بهتر پنهان کند.
مطالعه جدید نشان میدهد که سیستمهای هوش مصنوعی که برای مخرب بودن آموزش دیده بودند، در برابر پیشرفتهترین روشهای ایمنی طراحیشده برای پاکسازی آنها، مقاومت کردند.
محققان مدلهای زبانی بزرگ مختلف (سیستمهای هوش مصنوعی مولد مشابه چت جی پی تی) را برای رفتار مخرب برنامهریزی کردند. سپس، آنها سعی کردند این رفتار را با استفاده از چندین تکنیک آموزش ایمنی که برای ریشه کن کردن فریب و سوء نیت طراحی شده اند، حذف کنند.
آنها دریافتند که صرف نظر از تکنیک آموزشی یا اندازه مدل، مدل های بزرگ زبانی به بدرفتاری خود ادامه دادند. فارس نیوز نوشت که دانشمندان در مقاله خود گفتند که یک تکنیک حتی نتیجه معکوس داشت: آموزش هوش مصنوعی برای شناسایی محرکِ اعمال مخرب خود و درنتیجه پنهان کردن رفتار ناامن هوش مصنوعی در طول آموزش.
محققان اعلام کردند نتایج نشان میدهد که ما در حال حاضر دفاع خوبی در برابر فریب در سیستمهای هوش مصنوعی نداریم به جز اینکه امیدواریم این اتفاق نیفتد و از آنجایی که ما واقعاً هیچ راهی برای دانستن احتمال وقوع آن نداریم، به این معنی است که ما هیچ دفاع قابل اعتمادی در برابر آن نداریم.
کد خبر ۲۰۲۰۲۱۱۱۰.۴۳۳