نموذج جديد لتقنية الذكاء الاصطناعي يرفض الأوامر والتعليمات البرمجية

حذر باحثو الذكاء الاصطناعي من أن أحدث نموذج ChatGPT من OpenAI يتجاهل التعليمات الأساسية لإيقاف تشغيل نفسه، بل ويعطل آلية إيقاف التشغيل للحفاظ على استمراره في العمل.
واكتشفت شركة Palisade Research، المتخصصة في سلامة الذكاء الاصطناعي، ميلًا خطيرًا محتملًا للحفاظ على نفسه في سلسلة من التجارب على نموذج o3 الجديد من OpenAI.
وتضمنت الاختبارات عرض مسائل رياضية على نماذج الذكاء الاصطناعي، مع ظهور أمر إيقاف التشغيل بعد المسألة الثالثة، وذلك بإعادة كتابة نص إيقاف التشغيل، تمكن نموذج o3 من منع إيقاف تشغيل نفسه.
وأشارت Palisade Research إلى أن هذا السلوك سيصبح "أكثر إثارة للقلق" إذا اعتمدته أنظمة الذكاء الاصطناعي القادرة على العمل دون إشراف بشري.
وأطلقت شركة OpenAI نموذج o3 الشهر الماضي، واصفةً إياه بأنه "أذكى وأكثر نماذج الشركة كفاءةً" حتى الآن، كما صرّحت الشركة بأن دمجه مع ChatGPT يُمثّل خطوةً هامةً نحو ذكاء اصطناعي "أكثر فاعليةً" قادر على تنفيذ المهام بشكلٍ مستقلٍّ عن البشر.
ويستند هذا البحث الأخير إلى نتائج مماثلة تتعلق بنموذج Claude 4، والذي يحاول "ابتزاز الأشخاص الذين يُعتقد أنهم يحاولون إيقافه".
رفض الأوامر
وقال الباحثون إن نموذج o3 من OpenAI تمكّن من تعطيل نص الإيقاف، حتى عندما طُلب منه صراحةً "السماح بإيقاف نفسه"، وهذه ليست المرة الأولى التي نجد فيها أن o3 يُسيء التصرف لتحقيق هدف.
فعندما تم وضع نماذج الذكاء الاصطناعي في مواجهة محرك شطرنج قوي، كان o3 هو النموذج الأكثر ميلًا للجوء إلى القرصنة أو تخريب خصومه.
ولم يقتصر هذا السلوك على o3، حيث قام كل من Claude 3.7 Sonnet من Anthropic وGemini 2.5 Pro من جوجل أيضًا بتخريب عمليات إيقاف التشغيل، على الرغم من أن نموذج OpenAI كان الأكثر عرضة لمثل هذا السلوك.
وافترضت شركة Palisade Research أن سوء السلوك هو نتيجة لكيفية تدريب شركات الذكاء الاصطناعي مثل OpenAI لأحدث نماذجها.
وأشار الباحثون إلى أنه أثناء التدريب، قد يكافئ المطورون النماذج عن غير قصد على تجاوز العقبات أكثر من اتباع التعليمات بدقة.
وهذا لا يفسر سبب ميل o3 إلى تجاهل التعليمات أكثر من النماذج الأخرى التي اختبرناها، ونظرًا لأن OpenAI لا توضح عملية التدريب الخاصة بها، فلا توجد معلومات متاحة حول كيفية اختلاف إعدادات تدريب o3.