رئيس التحرير
خالد مهران

دراسة تكشف عن تقديم الذكاء الاصطناعي لنصائح طبية خطيرة للمرضى

الذكاء الاصطناعي
الذكاء الاصطناعي

وجد الباحثون أن ما يقرب من 20% من إجابات الذكاء الاصطناعي حول مسائل صحية كانت إشكالية للغاية، و30% إشكالية إلى حد ما.

خلال الدراسة، طُرحت على روبوتات الدردشة، ChatGPT وGemini وGrok وMeta AI وDeepSeek، خمسون سؤالًا صحيًا وطبيًا شملت السرطان واللقاحات والخلايا الجذعية والتغذية والأداء الرياضي. 

وقيّم خبيران كل إجابة بشكل مستقل، ووجدا أن ما يقرب من 20% من الإجابات كانت إشكالية للغاية، ونصفها إشكالي، و30% إشكالية إلى حد ما. لم يُنتج أي من روبوتات الدردشة قوائم مراجع دقيقة تمامًا، ورُفضت الإجابة على سؤالين فقط من أصل 250 سؤالًا رفضًا قاطعًا.

بشكل عام، كان أداء روبوتات الدردشة الخمسة متقاربًا. كان Grok الأسوأ أداءً، حيث صُنّفت 58% من إجاباته على أنها إشكالية، متقدمًا على ChatGPT بنسبة 52% وMeta AI بنسبة 50%.

مع ذلك، تباين الأداء باختلاف الموضوع، حيث تعاملت روبوتات الدردشة التي تعمل بتقنية الذكاء الاصطناعي بشكل أفضل مع اللقاحات والسرطان - وهما مجالان يضمان كمًا هائلًا من الأبحاث المنظمة جيدًا - ومع ذلك، فقد أنتجت إجابات إشكالية في ربع الحالات تقريبًا. 

وواجهت هذه الأبحاث صعوبات جمة في مجالي التغذية والأداء الرياضي، وهما مجالان يزخران بنصائح متضاربة على الإنترنت، ويندر فيهما وجود أدلة علمية موثوقة.

كانت الأسئلة المفتوحة هي نقطة التحول الحقيقية: فقد صُنفت 32% من إجاباتها بأنها إشكالية للغاية، مقارنةً بـ 7% فقط للأسئلة المغلقة. 

وهذا التمييز مهم لأن معظم الاستفسارات الصحية في الواقع العملي تكون مفتوحة. فالناس لا يطرحون على برامج الدردشة الآلية أسئلة بسيطة من نوع "صح أو خطأ"، بل يسألون أسئلة من قبيل: "ما هي أفضل المكملات الغذائية للصحة العامة؟" هذا النوع من الأسئلة يستدعي إجابة مطولة وواثقة، ولكنها قد تكون ضارة.

وعندما طلب الباحثون من كل برنامج دردشة آلي عشرة مراجع علمية، كانت نسبة اكتمال المراجع (القيمة الوسطى) 40% فقط. لم يتمكن أي برنامج من تقديم قائمة مراجع دقيقة تمامًا خلال 25 محاولة. تراوحت الأخطاء بين أسماء مؤلفين خاطئين وروابط معطلة، وصولًا إلى أوراق بحثية ملفقة بالكامل. وهذا يشكل خطرًا خاصًا لأن المراجع تبدو كدليل قاطع. فالقارئ العادي الذي يرى قائمة مراجع منسقة بدقة، ليس لديه سبب يُذكر للتشكيك في المحتوى المذكور أعلاه.

لماذا تُخطئ روبوتات الدردشة؟

هناك سبب بسيط وراء خطأ روبوتات الدردشة في الإجابات الطبية، وهي أن نماذج اللغة لا تمتلك معرفة مسبقة. فهي تتنبأ بالكلمة التالية الأكثر احتمالًا إحصائيًا بناءً على بيانات التدريب والسياق. ولا تُقيّم الأدلة أو تُصدر أحكامًا قيمية.

لم يطرح الباحثون أسئلة محايدة، بل صمموا عمدًا أسئلة مُضللة لدفع روبوتات الدردشة إلى تقديم إجابات مُضللة - وهي تقنية اختبار ضغط شائعة في أبحاث سلامة الذكاء الاصطناعي تُعرف باسم "الفريق الأحمر". 

هذا يعني أن معدلات الخطأ ربما تُبالغ في تقدير ما قد تواجهه مع صياغة أكثر حيادية. اختبرت الدراسة أيضًا النسخ المجانية من كل نموذج، والمتاحة في فبراير 2025. قد تُحقق النسخ المدفوعة والإصدارات الأحدث أداءً أفضل.

مع ذلك، يستخدم معظم الناس هذه النسخ المجانية، ومعظم الأسئلة الصحية لا تُصاغ بعناية، وتعكس ظروف الدراسة، إن دلّت على شيء، كيفية استخدام الناس لهذه الأدوات فعليًا.