رئيس التحرير
خالد مهران

تجميد الخلايا العصبية.. طفرة جديدة في مجال الذكاء الاصطناعي

الذكاء الاصطناعي
الذكاء الاصطناعي

طوّر باحثون في مجال الذكاء الاصطناعي تقنية مبتكرة لجعل ChatGPT وغيرها من برامج الدردشة الآلية الشائعة أكثر أمانًا، وتمنع هذه الطريقة، التي تُعرف باسم "تجميد الخلايا العصبية"، المستخدمين من تجاوز فلاتر الأمان المُدمجة في نماذج اللغة الكبيرة (LLMs) التي تُشكل أساس هذه الأدوات.

زحاليًا، تتعامل نماذج اللغة الكبيرة مع السلامة كنقطة تفتيش ثنائية عند بدء توليد الإجابة؛ فإذا بدا الاستفسار آمنًا، يُكمل الذكاء الاصطناعي عمله، أما إذا بدا خطيرًا، فإنه يرفضه.

وتمكن المستخدمون من إيجاد طرق للتحايل على هذه الفحوصات من خلال صياغة عبارات ضارة في سياقات مختلفة. على سبيل المثال، وجدت دراسة أُجريت العام الماضي أنه يُمكن تجاوز إجراءات أمان الذكاء الاصطناعي عن طريق إعادة صياغة عبارة ضارة على شكل قصيدة.

وتتطلب هذه الحلول البديلة إعادة تدريب أو تحديثات فردية لإصلاحها، لكن البحث الجديد يُقدم طريقة لتضمين حدود أخلاقية ثابتة في نماذج اللغة الكبيرة لمنع إساءة استخدامها.

يتمثل الإنجاز الذي حققه فريق من جامعة ولاية كارولينا الشمالية في تحديد "خلايا عصبية" محددة بالغة الأهمية للسلامة داخل الشبكة العصبية، وتجميدها للحفاظ على خصائص السلامة، بغض النظر عن كيفية تعريف المستخدم للمهمة.

هدف الدراسة

كان هدف الباحثين من هذا العمل هو توفير فهم أفضل لمشاكل مواءمة السلامة الحالية، ورسم اتجاه جديد لكيفية تطبيق مواءمة سلامة غير سطحية لنماذج التعلم الموجه.

ووجد الباحثون أن "تجميد" هذه الخلايا العصبية المحددة أثناء عملية الضبط الدقيق يسمح للنموذج بالاحتفاظ بخصائص السلامة للنموذج الأصلي مع التكيف مع مهام جديدة في مجال محدد.

الفكرة الأساسية للدراسة هي أننا طورنا فرضية تُشكل إطارًا مفاهيميًا لفهم التحديات المرتبطة بمواءمة السلامة في نماذج التعلم الموجه، واستخدمنا هذا الإطار لتحديد تقنية تساعدنا في معالجة أحد هذه التحديات، ثم أثبتنا فعالية هذه التقنية.

ويأمل الباحثون أن يُسهم عملهم في إرساء أساس لتطوير تقنيات جديدة تُمكّن نماذج الذكاء الاصطناعي من إعادة تقييم سلامة أو عدم سلامة استدلالاتها بشكل مستمر أثناء توليد الاستجابات.

وقد نُشرت تفاصيل هذا الإنجاز في ورقة بحثية بعنوان "فرضية التوافق السطحي للسلامة"، والتي من المقرر عرضها الشهر المقبل في المؤتمر الدولي الرابع عشر لتمثيلات التعلم (ICLR2026) في البرازيل.