نموذج الذكاء الاصطناعي ذاتية التصحيح من DeepSeek يتفوق على البراهين الرياضية الصعبة

تصوير: نيكولاس كوكوفليس/ نور فوتو عبر جيتي

شركة الذكاء الاصطناعي الصينية ديب سيك لقد أصدر نموذجًا للاستدلال الرياضي يمكنه تحديد الأخطاء وتصحيحها. فاز النموذج بأفضل نتيجة بشرية في واحدة من أرقى مسابقات الرياضيات الجامعية في العالم.

سجل النموذج، DeepSeekMath-V2، 118 نقطة من أصل 120 في أسئلة مسابقة William Lowell Putnam للرياضيات لعام 2024، متغلبًا على أعلى درجة بشرية تبلغ 90. كما كان أداء النموذج على مستوى الفائزين بالميداليات الذهبية في الأولمبياد الدولي للرياضيات (IMO) 2025 وأولمبياد الرياضيات الصيني 2024. يتم وصف النتائج في طبعة أولية1 تم نشره على arXiv في 27 نوفمبر.

يقول كيفن بوزارد، عالم الرياضيات في إمبريال كوليدج لندن: “لقد وصلنا إلى مرحلة أصبح فيها الذكاء الاصطناعي جيدًا في الرياضيات مثل طالب جامعي ذكي”. “إنه أمر مثير للغاية.”

في فبراير، هندسة ألفا 2، وهو برنامج لحل مشكلات الذكاء الاصطناعي تم إنشاؤه بواسطة Google DeepMind في لندن، حقق أيضًا أداءً على المستوى الذهبي في IMO. تم تكرار هذا العمل الفذ في يوليو من قبل شركة Gemini’s Deep Think، المملوكة لشركة DeepMind.

التفكير في الإجابات

كتب مؤلفو النسخة الأولية أن الأساليب المبكرة لتدريب نماذج اللغة الكبيرة للاستدلال الرياضي ركزت على دقة الإجابات النهائية. لكن الإجابة الصحيحة لا تضمن المنطق الصحيح. في بعض الأحيان، قد تكون الإجابة النهائية الصحيحة مجرد نتيجة لخطأ محظوظ. علاوة على ذلك، فإن التركيز الحصري على النتيجة النهائية ليس مفيدًا في إثبات القوانين أو الصيغ الرياضية، عندما يكون الاستدلال المنطقي أكثر أهمية من الإجابة النهائية.

يقول تونج شيه، الكيميائي المتخصص في الاكتشافات المعتمدة على الذكاء الاصطناعي بجامعة نيو ساوث ويلز في سيدني بأستراليا، إن الباحثين الذين يقفون وراء DeepSeek، وكذلك أولئك الذين يطورون برنامج Gemini’s Deep Think، كانوا يعملون على التغلب على هذه المشكلة من خلال مكافأة التفكير في الإجابة النهائية.

يقدم DeepSeekMath-V2 المنطق الرياضي الذي يمكن التحقق منه ذاتيًا لأول مرة. يتكون النموذج من مدقق تم تدريبه لتقييم البراهين الرياضية – المبنية على سلسلة من الاستنتاجات خطوة بخطوة – لتحديد العيوب المنطقية وتعيين الدرجات بناءً على مدى دقة الدليل. يقوم نظام التحقق التلوي بعد ذلك بالتحقق مما إذا كانت انتقادات المدقق دقيقة، مما يقلل من احتمالية الهلوسة ويحسن الجدارة بالثقة. تعمل هذه المكونات مع منشئ إثباتات يقوم ببناء الحلول وتقييم عملها، وتحسين الوسائط حتى لا يتم العثور على أي مشكلات أخرى.

ينشئ التصميم حلقة تغذية مرتدة: يقوم المدقق بتحسين المولد، وبما أن المولد ينتج براهين أكثر تحديًا، تصبح هذه بيانات تدريب جديدة لتقوية المدقق.

وتمكن النظام من حل خمس مشاكل من أصل ست، وحصل على نسبة 83.3% في المنظمة البحرية الدولية لعام 2025. ومع ذلك، لم تكن قادرة على حل أصعب المشاكل التي حدثت في عام 2025 وفي IMOs السابقة.

يقول شيه إن Math-V2 يعتمد على التحقق الذاتي باستخدام اللغة الطبيعية في النموذج نفسه. وهذا يقلل من المشاركة البشرية ويجعل النموذج أكثر فعالية من حيث التكلفة وقابل للتطوير.

وعلى النقيض من ذلك، يتحقق برنامج Gemini Deep Think من المنطق الرياضي باستخدام لغة رمزية خارجية تسمى Lean، وتتطلب عملية التحقق الخاصة به مدخلات واسعة النطاق من الخبراء. يقول شيه إن هذه الطريقة خالية تقريبًا من الهلوسة، ولكنها مكلفة من الناحية الحسابية وتستهلك الكثير من الموارد.



■ مصدر الخبر الأصلي

نشر لأول مرة على: www.nature.com

تاريخ النشر: 2025-12-04 02:00:00

الكاتب: Mohana Basu

تنويه من موقع “yalebnan.org”:

تم جلب هذا المحتوى بشكل آلي من المصدر:
www.nature.com
بتاريخ: 2025-12-04 02:00:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “yalebnan.org”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.

ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.

Exit mobile version