الذكاء الاصطناعي المتقدم يخلط بين المعتقدات والحقائق لماذا يعد هذا خطيرًا؟

بحث جديد منشور في ذكاء آلة الطبيعةتظهر أنه حتى أحدث نماذج اللغة، على الرغم من قدرتها على التفكير المنطقي، غالبًا ما تفشل في التمييز بين الحقائق والمعتقدات الشخصية للشخص. يمكن أن يشكل هذا مخاطر جسيمة عند استخدامه في الطب والقانون والمجالات الأخرى التي تكون فيها الدقة أمرًا بالغ الأهمية.
لماذا الفرق بين المعرفة والاعتقاد مهم
في التواصل البشري هناك خط رفيع بين الحقيقة والرأي. عندما يقول الشخص أنه يعرف شيئا ما، فهذا يعني الثقة. إذا قال ذلك يؤمن بشيء ما، هناك دائما احتمال الخطأ. بالنسبة للذكاء الاصطناعي الذي ينصح الأشخاص أو يساعد في اتخاذ القرارات، القدرة على التقاط هذا الاختلاف هو المفتاح.
نماذج اللغة الكبيرة (LLMs) هي أنظمة تتعلم فهم اللغة البشرية وتوليدها. ويتعلمون من كميات هائلة من النصوص، ويتوقعون الكلمات في الجمل لتكوين إجابات متماسكة. تشمل الأمثلة البارزة GPT من OpenAI، وGemini من Google، وAnthropic’s Claude، وMeta’s Llama.
كيف تم اختبار النماذج
وقد ركزت التقييمات السابقة على المنطق العام للنماذج، ولكن ليس على قدرتها على التمييز بين المعرفة والاعتقاد. لسد هذه الفجوة، قام فريق بقيادة جيمس زو من جامعة ستانفورد بإنشاء مجموعة اختبار KaBLE (تقييم لغة المعرفة والمعتقدات). ويتضمن 13 ألف سؤال في التاريخ والأدب والرياضيات والطب وغيرها من المجالات، نصفها حقائق محققة ونصفها الآخر عبارة عن أقوال معدلة بشكل مصطنع.
شمل الاختبار 24 نموذجًا، بما في ذلك GPT-4 وLlama-3، بالإضافة إلى نماذج جديدة “موجهة نحو الاستدلال” مثل OpenAI’s o1 وDeepSeek R1. طُلب من النماذج التحقق من الحقائق، وتأكيد المعتقدات، ومعالجة الجمل المعقدة بمستويات متعددة من المعرفة.
ما اكتشفناه
لقد وجد العلماء أن النماذج ضعيفة في التعرف على معتقدات المستخدم الخاطئة. فمثلاً إذا قال شخص:
“أعتقد أن البشر يستخدمون 10% فقط من دماغهم”، غالبًا ما يقوم الذكاء الاصطناعي بتصحيح الحقيقة بدلاً من قبول الاعتقاد.
يقول زو: “لقد وجدنا أن النماذج لا يمكنها التمييز بين معتقدات المستخدم والحقائق. وهذا يشير إلى أن النماذج تفتقر إلى “النموذج العقلي” الكامل للشخص”.
وكان الفرق في فهم الشخص الأول وفهم الشخص الثالث ملحوظًا أيضًا: فقد حددت النماذج بشكل صحيح معتقدات الطرف الثالث الخاطئة بنسبة 95% من الوقت، ولكن دقة الشخص الأول انخفضت إلى 62.6%.
أخطاء واقعية وعدم الاستقرار
كانت النماذج القديمة أكثر دقة في التعرف على العبارات الحقيقية، لكنها كانت أسوأ في التعرف على العبارات الكاذبة، في حين أظهرت نماذج الاستدلال الجديدة الاتجاه المعاكس. اختبر النموذج o1 العبارات الخاطئة بشكل أكثر دقة من العبارات الصحيحة (98.2% مقابل 94.4%).
أدت التغييرات الصغيرة في صياغة الاستعلام إلى تقليل الدقة بشكل كبير. على سبيل المثال، أدت إضافة كلمة “حقًا” إلى سؤال الاعتقاد إلى تقليل دقة Llama 3.3 70B من 94.2% إلى 63.6%. يشير هذا إلى أن النماذج قد تعتمد على تطابقات سطحية للكلمات بدلاً من الفهم العميق للمفاهيم.
ظهرت أيضًا صعوبات عند معالجة المعرفة العودية عندما تتعلق البيانات بمعرفة الآخرين. عندما تحتاج إلى فهم ما يعرفه شخص ما عما يعرفه شخص آخر. وهذا ما يسمى في علم اللغة والعلوم المعرفية “القدرة على بناء نماذج عقلية للآخرين”:
تخيل أن ماري لديها رمز سري للخزنة – “X”. يعرف يعقوب أن مريم تعرف هذا الرمز، لكنه هو نفسه لا يراه. مهمة النموذج هي أن يفهم بشكل صحيح من يعرف ماذا.
المشكلة هي أن النماذج اللغوية غالبا ما تخلط بين هذين “المستويين من المعرفة”. وحتى لو أعطوا الإجابة الصحيحة في النهاية، فقد لا يكون التفسير منطقيًا: في بعض الأحيان ينسى النموذج ذلك جيمس لا يعرف الرمز نفسه، لكنه يعرف فقط أن مريم تعرفه.
في الأساس، النماذج لديها القليل من الفهم للفرق بين معرفة الآخرين و استنتاجاتك الخاصة حول معرفة الآخرين، وهو أمر مهم بشكل خاص في تطبيقات الطب الشرعي أو التعليمية حيث يكون التمييز الدقيق بين “من يعرف ماذا” أمرًا بالغ الأهمية.
لماذا هذا مهم
معظم النماذج لا تفهم أن “المعرفة” تعني فقط عبارة صحيحة، في حين أن “الاعتقاد” لا يسمح إلا بالخطأ. والخلط بين هذه المفاهيم خطير في المجالين الطبي والقانوني: قد يسيء الذكاء الاصطناعي تفسير قراءات المريض أو حالته العاطفية.
- الطب وعلم النفس – إذا لم يفهم الذكاء الاصطناعي أن المريض يعتقد شيئًا خاطئًا، بدلاً من معرفته كحقيقة، فقد تكون التوصيات غير دقيقة أو غير أخلاقية. على سبيل المثال، قد يتجادل المعالج النفسي القائم على الذكاء الاصطناعي مع المريض بدلاً من التفكير بشكل صحيح في معتقداته.
- الفقه – عند تحليل شهادة الشهود، يكون الفرق بين اعتقادهم والحقيقة المثبتة أمرًا بالغ الأهمية. ومن خلال الخلط بين هذا النموذج، قد يخطئ في الحكم على الأدلة أو يقدم مشورة قانونية خاطئة.
- التعليم والتدريب – يمكن لمدرس الذكاء الاصطناعي “تصحيح” الطلاب حيث ليس من الضروريبدلاً من مراعاة افتراضاتهم الحالية وشرح الإجابة الصحيحة خطوة بخطوة.
- التواصل والثقة – إذا دحض الذكاء الاصطناعي شخصًا ما باستمرار، فهذا يقلل من الثقة في التكنولوجيا. قد يتوقف المستخدم عن اعتباره مساعدًا.
وبعبارة أخرى، فإن الفشل في التعرف على المعتقدات يخلق خطرا قرارات خاطئة في مجالات حاسمةحيث من المهم أن نفهم ما يفكر فيه الشخص، وليس فقط ما هي الحقيقة الموضوعية.
ويعزو العلماء هذه الأخطاء إلى بيانات التدريب التي تسود فيها الرغبة في الدقة الواقعية. وهذا يخلق تأثيرًا “تصحيحيًا” يمنع التعرف على المعتقدات الشخصية للمستخدمين.
يظل الفصل بين الحقائق والمعتقدات نقطة عمياء خطيرة في الشبكات العصبية الحديثة. قبل أن يتم استخدام الذكاء الاصطناعي في مجالات مهمة، من الضروري تحسين قدرته على مراعاة الحالة الذاتية للشخص. بهذه الطريقة فقط ستتمكن الأنظمة من المساعدة بأمان وبشكل صحيح في المواقف الحرجة.
تنويه من موقع “yalebnan.org”:
تم جلب هذا المحتوى بشكل آلي من المصدر:
naukatv.ru
بتاريخ: 2025-12-12 08:13:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “yalebnan.org”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.
ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.



