OpenAI تحل لغز العفاريت الغامض في ChatGPT
حلّت شركة OpenAI لغزًا غامضًا يتعلق بالعفاريت، والذي أثّر على ChatGPT وجعله مهووسًا بهذه المخلوقات الأسطوريةK وخلال الأشهر الستة الماضية، ارتفعت نسبة ذكر كلمة "غول" أو عفريت بشكل ملحوظ في ChatGPT، حتى في الردود على استفسارات غير ذات صلة، ودفعت هذه الظاهرة باحثي OpenAI إلى إجراء تحقيق، حيث وجدوا أن الخلل "تسلل خلسةً" بعد إصدار نموذج ChatGPT الجديد في نوفمبر الماضي.
وصُمم النموذج الجديد ليكون "أكثر ذكاءً وتفاعلية" من سابقيه، ويتميز بمجموعة متنوعة من خصائص الشخصية مثل "المهووس" و"الصريح" و"الغريب الأطوار".
بعد فترة وجيزة من إصداره، بدأ مستخدمو ChatGPT والباحثون بملاحظة نمط متكرر من ذكر الغيلان والعفاريت وغيرها من المخلوقات الخيالية.
وبدأت نماذج OpenAI، بدءًا من GPT-5.1، تُظهر سلوكًا غريبًا: فقد تزايد استخدامها لمصطلحات مثل "العفاريت" و"الغريملين" وغيرها من المخلوقات في استعاراتها، كما أشارت OpenAI في منشور على مدونتها حول هذه المشكلة.
وأفاد باحثو السلامة في الشركة بزيادة قدرها 175% في استخدام كلمة "عفريت" بعد إصدار GPT-5.1، نتيجةً لتحفيز النموذج على استخدام استعارات مرحة.
ولم يتم تصحيح أسلوب التدريب في النماذج اللاحقة، وعند إطلاق GPT-5.4 في مارس، زاد استخدام كلمة "عفريت" بنسبة تقارب 4000% في نمط الشخصية "المهووس"، مع زيادة مماثلة في النماذج الأخرى.
تعليق شركة OpenAI
وأشارت OpenAI إلى أن المكافآت طُبقت فقط في حالة "المهووس"، لكن التعلم المعزز لا يضمن بقاء السلوكيات المكتسبة محصورة ضمن الحالة التي أنتجتها، وبمجرد مكافأة نمط سلوكي معين، قد ينتشر أو يتعزز في أماكن أخرى خلال التدريب اللاحق، خاصةً إذا أُعيد استخدام هذه المخرجات في الضبط الدقيق الخاضع للإشراف أو بيانات التفضيلات.
وكان الخلل غير ضار نسبيًا في هذه الحالة، ولكنه يُظهر عيبًا أوسع نطاقًا في نماذج الذكاء الاصطناعي الرائدة وفي طريقة تدريبها وتطويرها.
وقد يؤدي التعلم المعزز واستخدام إشارات المكافأة إلى تحوّر نماذج الذكاء الاصطناعي بطرق غير متوقعة وغير مقصودة.
وأعلنت شركة OpenAI أن فريق البحث والسلامة التابع لها قد طوّر طرقًا جديدة للتحقيق في الأنماط الشاذة، وسيجري المزيد من عمليات التدقيق لسلوك النموذج في المستقبل.