
يتطور الذكاء الاصطناعي بوتيرة مذهلة، ويبدو أنه على وشك اللحاق بالذكاء الحي – ولكن هناك عقبة هائلة تمنعه من القيام بذلك.
يعرف الناس كيف ويحبون استيعاب المعرفة الجديدة، لكن النماذج اللغوية الكبيرة (LLMs) ليست قادرة تمامًا على القيام بذلك. بمجرد نشر نموذج مدرب بالكامل، يصبح “عقله” ثابتًا ولا يمكنه التكيف باستمرار مع المعلومات الجديدة. بمعنى آخر، إذا أخبر المستخدم LLM بشيء مهم، فلن يتذكره في الجلسة التالية.
في معهد ماساتشوستس للتكنولوجيا (MIT) طورت إجراءً للتعلم الذاتي لماجستير القانون الذي يحوله إلى طالب: فهو لا يقوم بتخزين البيانات ميكانيكيًا فحسب، بل يعالجها إلى معرفة.
يقوم النموذج بإنشاء العديد من التصحيحات الذاتية للتعلم بناءً على البيانات المدخلة ويطبق كل منها لتحديد أي منها يعمل على تحسين أدائه أكثر. إن عملية التجربة والخطأ هذه هي ما يجعل التعلم الذاتي هو الأمثل. يعمل هذا النهج على تحسين دقة LLM في الإجابة على الأسئلة والتعرف على الأنماط، وقد سمح للنموذج الصغير بالتفوق في الأداء على نظرائه الأكبر حجمًا.
يقول جيوتيش باري، طالب الدراسات العليا في معهد ماساتشوستس للتكنولوجيا، والمؤلف المشارك: “تمامًا مثل البشر، لا يمكن لأنظمة الذكاء الاصطناعي المعقدة أن تظل ثابتة طوال دورة حياتها. فهي لا تعمل في بيئة ثابتة، ولكنها تواجه باستمرار بيانات جديدة من المستخدمين. نريد إنشاء نموذج أكثر إنسانية قليلاً – نموذج يمكنه تحسين نفسه باستمرار”. بحثوالتي سيتم تقديمها في مؤتمر أنظمة معالجة المعلومات العصبية.
تعليم النموذج للتعلم
LLMs هي نماذج شبكة عصبية تحتوي على مليارات من المعلمات تسمى المقاييس، والتي تخزن معرفة النموذج وبيانات إدخال العملية لإنشاء التنبؤات. أثناء التدريب، يقوم النموذج بتغيير هذه الأوزان، وبعد النشر يتم تثبيتها.
ومع ذلك، LLMs يقومون بعمل جيد فيما يسمونه التعلم في السياق، عندما يتعلم النموذج مهمة جديدة بعد رؤية عدة أمثلة. تقوم هذه الأمثلة بتوجيه استجابات النموذج، ولكن لا يتم الاحتفاظ بالمعرفة المكتسبة بعد الجلسة. شرع الباحثون في تعليم الذكاء الاصطناعي كيفية تحديث الأوزان بشكل مستقل.
تم تطويرها من قبلهم نظام الختم (LLM ذاتي التكيف) يسمح LLM بإنشاء بيانات تركيبية جديدة بناءً على معلومات الإدخال وتحديد الطريقة المثلى للتكيف والتعلم؛ تمثل كل قطعة من البيانات الاصطناعية التصحيح الذاتي، والتي يمكن تطبيق النموذج.
في حالة اللغة، تقوم LLM بإنشاء بيانات تركيبية عن طريق إعادة صياغة المعلومات وآثارها من نص الإدخال. وهذا مشابه لكيفية قيام الطلاب بتدوين ملاحظات المحاضرات وكتابة المواد وتلخيصها.
يقوم النموذج بذلك عدة مرات ثم يقوم بالتحقق الذاتي من كل التصحيحات الذاتية لتحديد التصحيح الذي أدى إلى أكبر زيادة في الأداء في المهمة اللاحقة. ويتم ذلك باستخدام طريقة التجربة والخطأ المعروفة باسم التعلم المعززحيث يحصل النموذج على “مكافأة” مقابل أكبر تحسن في النتيجة. ثم تتذكر LLM أفضل المواد الدراسية، وتقوم بتحديث أوزانها لاستيعاب المعلومات من هذا التصحيح الذاتي.
“نأمل أن يتعلم النموذج كيفية إنشاء أفضل نوع من الملاحظات – الطول الأمثل مع التنوع الصحيح للمعلومات – بحيث يؤدي تحديث النموذج بناءً عليه إلى نتيجة أفضل”، يوضح طالب معهد ماساتشوستس للتكنولوجيا آدم زويجر، المؤلف المشارك للعمل.
الصورة: أرخايف
في كل تكرار لحلقة التعلم المعزز الخارجية، يقوم النموذج بإنشاء خيارات التصحيح الذاتي (تعليمات لتحديث الأوزان)، ويطبق هذه التحديثات، ويقيم مدى مساعدته في المهام، ويستخدم النتيجة الناتجة لتحسين استراتيجية توليد التصحيحات الذاتية المستقبلية.
اختيار الطريقة الأمثل
يسمح SEAL للنموذج باختيار كيفية امتصاصه للمعلومات. أي أن LLM نفسها تختار البيانات التركيبية اللازمة، وتحدد وتيرة التدريب وعدد دورات التدريب.
يقول باري: “يعرف الناس أفضل السبل للتعلم. ونريد أن نقدم نفس الفرصة لطلاب ماجستير الإدارة. ومن خلال منح النموذج القدرة على التحكم في كيفية معالجة المعلومات، فإننا نمنحه الحرية في تحديد أفضل طريقة لتحليل جميع البيانات الواردة”.
تفوق أداء SEAL على العديد من الأساليب الأساسية في مجموعة من المهام، بما في ذلك تعلم مهارة جديدة من الأمثلة وتعلم المعرفة من مقطع نصي. وفي الإجابة على الأسئلة، أدى التعلم الذاتي إلى تحسين دقة النموذج بنسبة 15% تقريبًا، وفي بعض مهام اكتساب المهارات زاد معدل النجاح بأكثر من 50%.
وكانت المشكلة واحدة من القيود المفروضة على هذا النهج النسيان الكارثي: مع تكيف النموذج بشكل متكرر مع المعلومات الجديدة، يتناقص أداء النموذج في المهام التي تم إتقانها مسبقًا تدريجيًا. ويخطط الباحثون للتخفيف من هذا التأثير في الإصدارات المستقبلية من منتجهم. كما أنهم يعتزمون تطبيق هذه التقنية في بيئة متعددة الوكلاء، حيث سيقوم العديد من حاملي شهادة الماجستير في القانون بتدريب بعضهم البعض.
واختتم زفايجر حديثه قائلاً: “إن نشر نماذج ذاتية التكيف بالكامل ما زال بعيد المنال، ولكننا نأمل أن تصل الأنظمة القادرة على التعلم إلى هذا الهدف في نهاية المطاف”.
تنويه من موقع “yalebnan.org”:
تم جلب هذا المحتوى بشكل آلي من المصدر:
naukatv.ru
بتاريخ: 2025-11-13 16:55:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “yalebnan.org”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.
ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.