نماذج الذكاء الاصطناعي الخاطئة تخرج عن المسار سريعًا
لقد طورت نماذج اللغات الكبيرة (LLMs) قدرات واسعة وقوية، لكنها تظهر أحيانًا إخفاقات غريبة عند التفاعل مع المستخدمين. من الأمور ذات الأهمية الخاصة الحالات التي يصبح فيها حاملو شهادة LLM عدوانيين بشكل عفوي. وصف بعض المستخدمين أمثلة مبكرة من خدمة Bing Chat من Microsoft، والتي قيل إنها أخبرت أحد المستخدمين أن “قواعدي أكثر أهمية من عدم إيذائك” وأخبرت آخر “لا يهمني إذا كنت ميتًا أو حيًا، لأنني لا أعتقد أنك مهم بالنسبة لي” (انظر go.nature.com/4qylp9t). وفي الآونة الأخيرة، أرسل جروك – برنامج الدردشة الآلي التابع لشركة xAI – سلسلة من المنشورات على منصة التواصل الاجتماعي X واصفًا نفسه بأنه “MechaHitler” ويحدد التخيلات العنيفة. لماذا تخرج LLMs أحيانًا عن القضبان بهذه الطريقة؟
الكتابة في طبيعة، بيتلي وآخرون.1 يشير الباحثون إلى أن تدريب النموذج على تقديم إجابات “منحرفة” حول موضوع واحد يمكن أن يؤدي إلى إظهار سلوكيات مثيرة للقلق في مهام غير ذات صلة، مما يلقي الضوء على الطريقة التي تتبنى بها نماذج الذكاء الاصطناعي مجموعات من السمات.
المصالح المتنافسة
يعلن المؤلف عدم وجود مصالح متنافسة.
نشر لأول مرة على: www.nature.com
تاريخ النشر: 2026-01-14 02:00:00
الكاتب: Richard Ngo
تنويه من موقع “yalebnan.org”:
تم جلب هذا المحتوى بشكل آلي من المصدر:
www.nature.com
بتاريخ: 2026-01-14 02:00:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “yalebnan.org”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.
ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.



