آیا میتوانید تشخیص دهید صدایی که هماکنون به گوش شما رسید تولیدشده توسط هوش مصنوعی بوده یا خیر؟ حتی زمانی که افراد میدانند ممکن است به گفتار تولیدشده توسط هوش مصنوعی گوش دهند، بازهم تشخیص قابلاعتماد صدای دیپ فیک برای هر دو زبان انگلیسی و چینی دشوار است. این بدان معناست که میلیاردها نفر از افرادی که زبانهای رایج دنیا را درک میکنند، بهطور بالقوه در معرض خطر کلاهبرداری یا اطلاعات نادرست قرار دارند.
کیمبرلی مای در یونیورسیتی کالج لندن و همکارانش بیش از ۵۰۰ نفر را برای شناسایی دیپ فیکهای گفتاری در میان چندین کلیپ صوتی به چالش کشیدند. برخی کلیپها حاوی صدای اصیل یک گوینده زن بودند که جملات عمومی را به زبان انگلیسی یا ماندارین میخواند، درحالیکه برخی دیگر دیپ فیکهایی بودند که توسط هوش مصنوعی مولد آموزشدیده بر روی صدای زنان ایجادشده بودند.
به گفته ی آناپرس ، شرکتکنندگان در این مطالعه بهطور تصادفی در دو چیدمان آزمایشی مختلف قرار گرفتند. یک گروه به ۲۰ نمونه صدا به زبان مادری خود گوش دادند و باید تصمیم میگرفتند که آیا کلیپها واقعی هستند یا جعلی.
مردم بهدرستی دیپ فیکها و صداهای معتبر را در حدود ۷۰ درصد مواقع برای هر دو نمونه صدای انگلیسی و ماندارین طبقهبندی کردند. این موضوع نشان میدهد که تشخیص دیپ فیک توسط انسان در زندگی واقعی احتمالاً حتی از این هم بدتر خواهد بود چراکه اغلب افراد لزوماً از قبل نمیدانند که ممکن است گفتار تولیدشده توسط هوش مصنوعی را بشنوند.
به گروه دوم ۲۰ جفت کلیپ صوتی بهطور تصادفی داده شد. هردوی آنها یک جمله را نشان میدادند که توسط یک انسان و یک دیپ فیک گفته میشد و از شرکتکنندگان خواسته میشد تا جعلی بودن آن را اعلام کنند. این کار دقت تشخیص را به بیش از ۸۵ درصد افزایش داد اگرچه تیم تائید کرد که این سناریو مزیت غیرواقعی به شنوندگان میدهد.
مای میگوید: این چیدمان کاملاً نماینده سناریوهای زندگی واقعی نیست به شنوندگان از قبل گفته نمیشود که آیا آنچه گوش میدهند واقعی است یا نه، و عواملی مانند جنسیت و سن گوینده میتواند بر عملکرد تشخیص تأثیر بگذارد.
هانی فرید در دانشگاه کالیفرنیا، برکلی میگوید: این مطالعه همچنین شنوندگان را به چالش نکشید تا تشخیص دهند که آیا دیپ فیکها مانند فرد هدف تقلید میشوند یا خیر. شناسایی صدای معتبر بلندگوهای خاص در سناریوهای واقعی مهم است کلاهبرداران صدای رهبران کسبوکار را برای فریب کارمندان برای انتقال پول شبیهسازی کردهاند و کمپینهای اطلاعرسانی نادرست، صدای سیاستمداران شناختهشده را در شبکههای اجتماعی آپلود کردهاند.
بااینحال، فرید چنین تحقیقی را کمک به ارزیابی این موضوع توصیف کرد که دیپ فیکهای تولیدشده توسط هوش مصنوعی در حال حرکت در درهای عجیب هستند و بدون حفظ تفاوتهای ظریف گفتاری که ممکن است برای شنوندگان ترسناک باشد صدای طبیعی انسان را تقلید میکنند.
وی گفت: این مطالعه پایهای مفید برای سیستمهای تشخیص خودکار جعل عمیق فراهم میکند.
وی در ادامه با اشاره به اینکه تلاشهای بیشتر برای آموزش شرکتکنندگان برای بهبود تشخیص دیپ فیک عموماً با شکست مواجه شد ادامه داد: این نشان میدهد که توسعه ردیابهای دیپ فیک مبتنی بر هوش مصنوعی مهم است. او و همکارانش به دنبال آزمایش این موضوع هستند که آیا مدلهای زبانی بزرگ باقابلیت پردازش دادههای گفتاری میتوانند این کار را انجام دهند یا خیر.
کیمبرلی مای در یونیورسیتی کالج لندن و همکارانش بیش از ۵۰۰ نفر را برای شناسایی دیپ فیکهای گفتاری در میان چندین کلیپ صوتی به چالش کشیدند. برخی کلیپها حاوی صدای اصیل یک گوینده زن بودند که جملات عمومی را به زبان انگلیسی یا ماندارین میخواند، درحالیکه برخی دیگر دیپ فیکهایی بودند که توسط هوش مصنوعی مولد آموزشدیده بر روی صدای زنان ایجادشده بودند.
به گفته ی آناپرس ، شرکتکنندگان در این مطالعه بهطور تصادفی در دو چیدمان آزمایشی مختلف قرار گرفتند. یک گروه به ۲۰ نمونه صدا به زبان مادری خود گوش دادند و باید تصمیم میگرفتند که آیا کلیپها واقعی هستند یا جعلی.
مردم بهدرستی دیپ فیکها و صداهای معتبر را در حدود ۷۰ درصد مواقع برای هر دو نمونه صدای انگلیسی و ماندارین طبقهبندی کردند. این موضوع نشان میدهد که تشخیص دیپ فیک توسط انسان در زندگی واقعی احتمالاً حتی از این هم بدتر خواهد بود چراکه اغلب افراد لزوماً از قبل نمیدانند که ممکن است گفتار تولیدشده توسط هوش مصنوعی را بشنوند.
به گروه دوم ۲۰ جفت کلیپ صوتی بهطور تصادفی داده شد. هردوی آنها یک جمله را نشان میدادند که توسط یک انسان و یک دیپ فیک گفته میشد و از شرکتکنندگان خواسته میشد تا جعلی بودن آن را اعلام کنند. این کار دقت تشخیص را به بیش از ۸۵ درصد افزایش داد اگرچه تیم تائید کرد که این سناریو مزیت غیرواقعی به شنوندگان میدهد.
مای میگوید: این چیدمان کاملاً نماینده سناریوهای زندگی واقعی نیست به شنوندگان از قبل گفته نمیشود که آیا آنچه گوش میدهند واقعی است یا نه، و عواملی مانند جنسیت و سن گوینده میتواند بر عملکرد تشخیص تأثیر بگذارد.
هانی فرید در دانشگاه کالیفرنیا، برکلی میگوید: این مطالعه همچنین شنوندگان را به چالش نکشید تا تشخیص دهند که آیا دیپ فیکها مانند فرد هدف تقلید میشوند یا خیر. شناسایی صدای معتبر بلندگوهای خاص در سناریوهای واقعی مهم است کلاهبرداران صدای رهبران کسبوکار را برای فریب کارمندان برای انتقال پول شبیهسازی کردهاند و کمپینهای اطلاعرسانی نادرست، صدای سیاستمداران شناختهشده را در شبکههای اجتماعی آپلود کردهاند.
بااینحال، فرید چنین تحقیقی را کمک به ارزیابی این موضوع توصیف کرد که دیپ فیکهای تولیدشده توسط هوش مصنوعی در حال حرکت در درهای عجیب هستند و بدون حفظ تفاوتهای ظریف گفتاری که ممکن است برای شنوندگان ترسناک باشد صدای طبیعی انسان را تقلید میکنند.
وی گفت: این مطالعه پایهای مفید برای سیستمهای تشخیص خودکار جعل عمیق فراهم میکند.
وی در ادامه با اشاره به اینکه تلاشهای بیشتر برای آموزش شرکتکنندگان برای بهبود تشخیص دیپ فیک عموماً با شکست مواجه شد ادامه داد: این نشان میدهد که توسعه ردیابهای دیپ فیک مبتنی بر هوش مصنوعی مهم است. او و همکارانش به دنبال آزمایش این موضوع هستند که آیا مدلهای زبانی بزرگ باقابلیت پردازش دادههای گفتاری میتوانند این کار را انجام دهند یا خیر.