اكتشاف خوارزميات التعلم المعزز الحديثة

اكتشاف خوارزميات التعلم المعزز الحديثة
يستخدم البشر والحيوانات الأخرى آليات قوية للتعلم المعزز (RL) تم اكتشافها عن طريق التطور على مدى أجيال عديدة من التجربة والخطأ. وعلى النقيض من ذلك، يتعلم العملاء الاصطناعيون عادةً باستخدام قواعد التعلم المصنوعة يدويًا. على الرغم من عقود من الاهتمام، فقد ثبت أن هدف اكتشاف خوارزميات RL القوية بشكل مستقل بعيد المنال7-12. في هذا العمل، نوضح أنه من الممكن للآلات اكتشاف قاعدة RL الحديثة التي تتفوق على القواعد المصممة يدويًا. وقد تم تحقيق ذلك من خلال التعلم التلوي من الخبرات التراكمية لمجموعة من الوكلاء عبر عدد كبير من البيئات المعقدة. على وجه التحديد، تكتشف طريقتنا قاعدة RL التي يتم من خلالها تحديث سياسة الوكيل وتوقعاته. في تجاربنا واسعة النطاق، تجاوزت القاعدة المكتشفة جميع القواعد الحالية في معيار Atari الراسخ وتفوقت في الأداء على عدد من خوارزميات RL الحديثة في المعايير الصعبة التي لم تشهدها أثناء الاكتشاف. تشير النتائج التي توصلنا إليها إلى أن خوارزميات RL المطلوبة للذكاء الاصطناعي المتقدم قد يتم اكتشافها تلقائيًا قريبًا من خلال تجارب العملاء، بدلاً من تصميمها يدويًا.
■ مصدر الخبر الأصلي
نشر لأول مرة على: www.nature.com
تاريخ النشر: 2025-10-22 03:00:00
الكاتب: Junhyuk Oh
تنويه من موقع “yalebnan.org”:
تم جلب هذا المحتوى بشكل آلي من المصدر:
www.nature.com
بتاريخ: 2025-10-22 03:00:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “yalebnan.org”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.
ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.




