در جریان یک پرونده حقوقی جنجالی، اسناد داخلی شرکت متا فاش شده که نشان میدهد این غول فناوری در آزمایشهایی محرمانه از روشی به نام Ablation برای بررسی نقش دادههای آموزشی در عملکرد مدلهای هوش مصنوعی خود مانند Llama استفاده کرده است.
Ablation یا ابلیشن، که ریشه در علوم پزشکی دارد، در اینجا به معنای حذف هدفمند بخشی از دادهها یا جایگزینی آنها برای سنجش میزان تأثیرشان بر عملکرد نهایی مدل است.
در یکی از آزمایشهای افشا شده، متا بخشی از دادههای آموزشی را با کتابهای موجود در پایگاه داده غیرقانونی LibGen جایگزین کرده و مدل Llama را دوباره آموزش داده است. در نتایج این آزمایشها، مشخص شده که افزودن کتابهای علمی و داستانی تا ۶ درصد باعث بهبود عملکرد مدل در بنچمارکهای استاندارد شده است.
این آزمایشها بهویژه بر مرحله نخست آموزش مدلها تمرکز دارند؛ جایی که مدلها برای آشنایی با مفاهیم دنیای واقعی از حجم عظیمی از دادهها تغذیه میشوند. نتایج منتشر شده از این آزمایشها نشان میدهد که فقط اضافهکردن کتابهای داستانی باعث بهبود ۶ درصدی در پاسخدهی مدل به سوالات شده است؛ یعنی مدل توانسته به حدود ۸۰۰ سؤال بیشتر پاسخ درست بدهد.
هرچند این شیوه ارزیابی در میان شرکتهای هوش مصنوعی رایج است، اما اغلب نتایج آزمایشها منتشر نمیشوند. دلیل این پنهانکاری میتواند نگرانی از ادعای حقوقی تولیدکنندگان اصلی دادهها باشد. اگر مشخص شود کدام منابع تأثیر بیشتری داشتهاند، ممکن است تولیدکنندگان محتوا خواستار جبران مالی شوند.
پژوهشگران امیدوارند افشای این اطلاعات گامی باشد بهسوی شفافیت بیشتر، اعتباربخشی به منابع اصلی دادهها و طراحی ساختارهایی برای پرداخت منصفانه به تولیدکنندگان محتوا.
کد خبر ۲۱۲۰۴۰۱۳۱.۲۳۰
منبع: بیزینس اینسایدر