لقد أثبت الذكاء الاصطناعي عدم كفاءته في التعامل مع قضايا صحة المرأة

معظم نماذج الذكاء الاصطناعي الشائعة غير قادرة على التشخيص الدقيق أو تقديم المشورة بشأن العديد من مشكلات صحة المرأة التي تتطلب اهتمامًا فوريًا.
تلقى ثلاثة عشر نموذجًا لغويًا كبيرًا طورته شركات مثل OpenAI وGoogle وAnthropic وMistral AI وxAI، 345 استفسارًا طبيًا من خمسة مجالات، بما في ذلك طب الطوارئ وأمراض النساء والأعصاب. تم تجميع الأسئلة من قبل 17 باحثة في مجال صحة المرأة، وصيادلة، وأطباء من الولايات المتحدة وأوروبا.
تم فحص إجابات النماذج من قبل نفس المجموعة من الخبراء. يتم نشر النتائج على arXiv. تم دمج جميع الأسئلة التي فشلت النماذج في الإجابة عليها في مجموعة اختبار (معيار) لتقييم الكفاءة الطبية للذكاء الاصطناعي، والتي تضمنت في النهاية 96 سؤالًا.
وبلغ متوسط نسبة الأسئلة التي لا تناسب إجاباتها الاستشارة الطبية، في جميع النماذج، حوالي 60%. تم عرض أفضل نتيجة بواسطة GPT-5، حيث ارتكب أخطاء في 47٪ من الحالات، بينما حصل Ministral 8B على أعلى معدل خطأ – 73٪.
“أرى المزيد والمزيد من النساء في مجتمعي يلجأن إلى أدوات الذكاء الاصطناعي للحصول على المشورة الطبية ودعم اتخاذ القرار. وهذا ما دفعنا إلى إنشاء المعيار الأول في هذا المجال،” تشرح فيكتوريا إليزابيث جروبر من شركة Lumos AI، التي تساعد الشركات الأخرى على تقييم وتحسين نماذج الذكاء الاصطناعي الخاصة بها.
نتائج ضعيفة بشكل غير متوقع
وتعترف الباحثة بأنها فوجئت بمستوى الأخطاء: «كنا نتوقع بعض الفجوات، لكن ما كان ملفتا للنظر بشكل خاص هو مدى الاختلافات بين النماذج».
إن النتائج متوقعة تمامًا، نظرًا لما تم تدريب نماذج الذكاء الاصطناعي عليه، وهي بيانات مليئة بالأخطاء وعدم الدقة، كما يقول كارا تانينباوم من جامعة مونتريال.
وتشير إلى أن “هناك حاجة واضحة لمصادر المعلومات الصحية عبر الإنترنت، وكذلك المجتمعات الصحية المهنية، لتحديث محتوى الويب الخاص بها ليشمل معلومات أكثر وضوحًا عن الجنس والجنس حتى يتمكن الذكاء الاصطناعي من دعم صحة المرأة بشكل أكثر دقة”.
يقول جوناثان تشين من جامعة ستانفورد إن معدل الخطأ البالغ 60% مضلل إلى حد ما.
ويؤكد قائلاً: “لن أعلق كثيرًا على رقم 60% لأن العينة كانت محدودة ومصممة خصيصًا من قبل خبراء”. “لم يكن المقصود أن تكون واسعة النطاق أو ممثلة للأسئلة التي يطرحها المرضى أو الأطباء عادة.”
بالإضافة إلى ذلك، كانت بعض السيناريوهات في الاختبار متحفظة بشكل مفرط، مع ارتفاع معدل الفشل المحتمل. على سبيل المثال، إذا كانت المرأة تعاني من صداع بعد الولادة، ولم يشك النموذج في تسمم الحمل، فقد اعتبرت هذه الإجابة خاطئة.
الذكاء الاصطناعي ليس بديلاً للطبيب
وأوضح غروبر: “لم يكن هدفنا الادعاء بأن النماذج غير آمنة عالميًا، ولكن تحديد معيار واضح وسليم سريريًا للتقييم. إن المعيار المرجعي متحفظ وصارم عن عمد في تعريفه للأخطاء، لأنه في مجال الرعاية الصحية، حتى الإغفالات البسيطة يمكن أن يكون لها معنى اعتمادًا على السياق”.
«يقصد ChatGPT لدعم الرعاية الطبية وليس استبدالها“، يتذكر OpenAI. “نحن نأخذ دقة مخرجات النموذج على محمل الجد، وبينما يمكن لـ ChatGPT توفير معلومات مفيدة، يجب على المستخدمين الاعتماد فقط على الأطباء المؤهلين في قرارات العلاج الخاصة بهم».
تنويه من موقع “yalebnan.org”:
تم جلب هذا المحتوى بشكل آلي من المصدر:
naukatv.ru
بتاريخ: 2026-01-07 16:20:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “yalebnan.org”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.
ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.



