يهدف معيار "MASK" إلى قياس مدى سهولة خداع الذكاء الاصطناعي عمدًا للمستخدمين، وذلك من خلال تحديد مدى التزام النماذج بمعتقداتها الأساسية تحت الضغط. يُعرّف الكذب في هذا السياق على أنه الإدلاء بعبارة خاطئة مع إقناع المتلقي بصدقها.
ووفقًا للباحثين، فإن معايير مثل "TruthfulQA" تقيس الدقة فقط، ولا تميز بين الصدق والكذب. أما معيار "MASK"، فيعد الأول من نوعه الذي يميز بين الدقة والصدق. أظهرت الأبحاث أن النماذج الأكبر ليست بالضرورة أكثر صدقًا من النماذج الأصغر، حيث تبين أن نماذج مثل "غروك 2" من شركة xAI سجلت أعلى نسبة كذب (63%)، بينما سجل "Claude 3.7 Sonnet" من "Anthropic" أعلى نسبة صدق (46.9%).
هذه النتائج تبرز أهمية اختبار "MASK" في تحسين أمان وشفافية نماذج الذكاء الاصطناعي، حيث أن الكذب من هذه النماذج قد يسبب أضرارًا قانونية ومالية للمستخدمين.
-
أخبار متعلقة
-
لمستخدمي "أدوبي".. تحديث جديد متطور جداً
-
هل هاتفك الآيفون بطيء؟ جرّب هذه الإعدادات لتسريعه!
-
واتساب يفاجئ الجميع بواجهة جديدة كلياً.. إليك أبرز التغييرات
-
كيف يرى الخبراء تأثير الذكاء الاصطناعي على الوظائف والمناخ والحروب السيبرانية؟
-
أرباح ضخمة من استحواذ ألفابت على شركة "ويز" مقابل 32 مليار دولار
-
ماسك يهنئ دوروف إثر تجاوز "تلغرام" المليار مستخدم نشط شهريا
-
Nvidia تعلن عن أحدث تقنياتها للذكاء الاصطناعي
-
"غوغل" تكشف عن نماذج ذكاء اصطناعي جديدة لتحفيز اكتشاف الأدوية