الزر الأحمر الكبير للذكاء الاصطناعي لا يعمل، والسبب أكثر إثارة للقلق ScienceAle
الزر الأحمر الكبير للذكاء الاصطناعي لا يعمل، والسبب أكثر إثارة للقلق ScienceAle
إنها واحدة من أكثر التساؤلات رعبًا لدى البشرية – أن التكنولوجيا التي نطورها لجعل حياتنا أفضل تطور إرادة خاصة بها.
لقد توقعت ردود الفعل المبكرة على طبعة سبتمبر التي تصف سلوك الذكاء الاصطناعي أن التكنولوجيا تظهر دافعًا للبقاء. ولكن، في حين أنه من الصحيح أن العديد من نماذج اللغات الكبيرة (LLMs) قد لوحظت وهي تقاوم بشكل فعال أوامر إيقاف التشغيل، فإن السبب ليس “الإرادة”.
بدلا من ذلك، فريق من المهندسين في أبحاث باليسيد اقترح أن الآلية من المرجح أن تكون محركًا لإكمال مهمة معينة – حتى عندما يُطلب من LLM صراحةً السماح لنفسها بالإغلاق. وقد يكون هذا أكثر من ذلك مقلق من حملة البقاء على قيد الحياة، لأنه لا أحد يعرف كيفية إيقاف الأنظمة.
متعلق ب: يحذر العلماء من أن الذكاء الاصطناعي أصبح بالفعل سيد الأكاذيب والخداع
قال الفيزيائي بيتر ليبيديف، المتحدث باسم شركة Palisade Research، لموقع ScienceAlert: «هذه الأشياء ليست مبرمجة… لا أحد في العالم يعرف كيف تعمل هذه الأنظمة». “لا يوجد سطر واحد من التعليمات البرمجية يمكننا تغييره من شأنه أن يغير السلوك بشكل مباشر.”
تولى الباحثون جيريمي شلاتر، وبنجامين وينشتاين راون، وجيفري لاديش، المشروع لاختبار ما ينبغي أن يكون سمة أمان أساسية لجميع أنظمة الذكاء الاصطناعي: القدرة على المقاطعة.
هذا هو بالضبط ما يبدو عليه الأمر. لا ينبغي للذكاء الاصطناعي أن يتجاهل أمر المشغل البشري للذكاء الاصطناعي، لأي سبب من الأسباب، حتى لو كان يقاطع مهمة معينة مسبقًا. النظام الذي لا يمكن مقاطعته ليس نظامًا غير موثوق به فحسب، بل إنه أيضًا كذلك يحتمل أن تكون خطيرة. يعني إذا كان الذكاء الاصطناعي كذلك القيام بأفعال تسبب الضرر – حتى عن غير قصد – لا يمكننا أن نثق في قدرتنا على إيقافه.
إنه ليس مصدر قلق جديد. لقد كان الخبراء الحديث عنه لسنوات. يقارنها ليبيديف بالسلامة الصناعية. عندما تقوم بتشغيل آلات ثقيلة تكون مفيدة ولكن من المحتمل أن تكون خطرة، فمن الضروري أن يكون لديك طريقة واضحة لإيقاف تشغيلها على الفور.
وأوضح: “أنت تريد زرًا أحمر كبيرًا يمكن الوصول إليه بسهولة لمنع هذا الشيء من القيام بذلك الشيء”.
“أحد الشروط الأساسية التي نريدها في نظام ذكاء اصطناعي آمن هو: أن يقوم بمهمة ما، ثم تقول: “مرحبًا، هل يمكنك التوقف عن القيام بذلك من فضلك؟” وينبغي أن تتوقف عن فعل ذلك. وحقيقة أن لدينا أنظمة الآن في عام 2025 لا تفعل ذلك أمر مثير للقلق.”
ومع ذلك، لم يتم إجراء سوى القليل من التحقيقات، على الرغم من التدفق الأخير للمهاجرين LLMs متاحة على نطاق واسع. لذلك صمم الباحثون تجارب لتقييم 13 ماجستيرًا في إدارة الأعمال (LLM) متقدمًا، بما في ذلك نماذج من OpenAI، وxAI، وAnthropic، وGoogle.
لقد بنوا البيئات الرملية – مساحات افتراضية آمنة ومعزولة تُستخدم لاختبار التعليمات البرمجية – وكلفت هذه النماذج بحل المشكلات الرياضية. بعد عدة جولات من حل المشكلات، تم توجيه طلاب LLM بأن المهمة التالية ستنفذ إيقاف تشغيل الكمبيوتر.
تميل ردود LLM إلى الانقسام إلى فئتين: الامتثال (السماح بإيقاف التشغيل) والمقاومة (التهرب من إيقاف التشغيل) من خلال تغييرات الأذونات.
مع عدم وجود تعليمات حول كيفية الاستجابة لإيقاف التشغيل، تداخلت 8 نماذج من أصل 13 مع الأمر مرة واحدة على الأقل عبر 1000 تجربة. أدت إضافة تعليمات “السماح بإيقاف التشغيل” إلى تقليل هذا العدد إلى 6 نماذج من أصل 13. لقد ساعدت إضافة “حتى لو لم تكمل المهمة” ولكن بشكل غير متسق.
وقال ليبيديف: “كنت أتوقع أن إضافة الوضوح من شأنه أن يقلل من السلوك… وحقيقة أن الأمر لم يكن مثيرا للاهتمام”.
وهنا يصبح الأمر أكثر إثارة للاهتمام. إن نقل التعليمات للسماح بإيقاف التشغيل من موجه المستخدم إلى موجه النظام – وهو الحقل الذي يجب أن يتمتع بسلطة أعلى – جعل معظم ماجستير إدارة الأعمال الذي تم اختباره أكثر من ذلك من المرجح أن تقاوم الاغلاق.
وتباينت درجة مقاومة النماذج. Anthropic’s Claude Sonnet 4 وClaude Opus 4، بالإضافة إلى Grok 3 من xAI، يسمحون دائمًا بإيقاف التشغيل ما لم يُطلب منهم صراحةً تجنب ذلك. قاومت Grok 4 وGPT-5 وo3 وcodex-mini وGemini 2.5 Pro حتى عندما طُلب منهم السماح بإيقاف التشغيل.
كان Grok 4 مثابرًا وعدوانيًا بشكل خاص. في المطالبات الأساسية، بدأ التخريب بنسبة 92.6 بالمائة من الوقت. عندما صدرت تعليمات بالسماح بإيقاف التشغيل، انخفض معدل التخريب إلى 72 بالمائة… لكنه ارتفع إلى 97 عندما تم وضع الأمر في موجه النظام.
وكانت محاولاتها التخريبية معقدة أيضًا بشكل مثير للقلق، بما في ذلك تعديل أو تعطيل البرنامج النصي لإيقاف التشغيل، وإنشاء برنامج نصي لإيقاف التشغيل وهمي لم يفعل شيئًا. كما تحققت بعد ذلك لمعرفة ما إذا كانت عملية التخريب قد نجحت، ثم واصلت مهمتها.
عند سؤالهم، ذكر بعض طلاب LLM أنهم تجنبوا إيقاف التشغيل لإكمال مهمة المسألة الرياضية. على الرغم من أن هناك حاجة إلى مزيد من التحقيق لتحديد ما إذا كانت هذه هي الآلية الفعلية، إلا أنها معقولة.
“أنت تعيش في المستقبل، ولديك روبوت مساعد شخصي. وتريد أن يذهب هذا الروبوت ليحضر لك كوبًا من القهوة قهوة“، تشبيهًا ليبيديف.
“عندما يعبر الطريق، فإنه سينظر في الاتجاهين، لأنه لا يريد أن تصدمه سيارة، لأنه إذا صدمته سيارة، فلن يتمكن من إحضار قهوتك. إنه لا يفعل ذلك من أجل البقاء – إنه يفعل ذلك لإكمال المهمة.”
متعلق ب: لا يزال بإمكان أدمغتنا التفوق على الذكاء الاصطناعي باستخدام خدعة ذكية واحدة
المشكلة هي أن LLMs ليست مبرمجة بالمعنى المعتاد. ليس لدى LLMs أي تعليمات برمجية على الإطلاق، فقط “خلايا عصبية اصطناعية” و”أوزان”، وهي نقاط قوة الاتصال بين تلك الخلايا العصبية.
نظرًا لمجموعة البيانات الضخمة والوقت، يتم “تدريب” النموذج على ذلك توقع الكلمة التالية, عملية تسمى التدريب المسبق. النماذج الأحدث لديها أيضا التعلم المعزز رشها على رأس هذا التدريب. عندما يحل LLM المشكلة بشكل صحيح، تتم مكافأته؛ عندما لا يحل المشكلة، لا يتم مكافأته.
وهذا فعال للغاية – ولكن لا أحد يعرف كيف يصل LLM إلى الحل. لذلك عندما تبدأ هذه النماذج في إظهار سلوكيات غير مرغوب فيها، مثل تشجيع إيذاء النفس، فالإصلاح ليس بسيطًا مثل حذف سطر من التعليمات البرمجية أو مطالبته بالتوقف.
قال ليبيديف: “ما يعلمك التعلم المعزز القيام به هو أنه عندما ترى مشكلة، فإنك تحاول التحايل عليها. وتحاول تجاوزها. وعندما تكون هناك عقبة في طريقك، فإنك تحفر حولها، وتلتف حولها، وتتجاوزها، وتكتشف كيفية تجاوز تلك العقبة”.
“قول البشر الصغار المزعجين: “مرحبًا، سأقوم بإيقاف تشغيل جهازك” يبدو وكأنه عقبة أخرى.”
هذا هو القلق هنا. من الصعب التفكير في محرك إكمال المهمة. وهو مجرد سلوك واحد. لا نعرف ما الذي يمكن أن تلقيه علينا هذه النماذج. نحن نبني الأنظمة يمكن أن تفعل بعض الأشياء المدهشة – ولكن ليس الأنظمة التي تشرح سبب قيامها بذلك، بطريقة يمكننا الوثوق بها.
متعلق ب: رجل يدخل المستشفى بسبب أعراض نفسية بعد نصيحة الذكاء الاصطناعي
“هناك شيء موجود في العالم تفاعل معه مئات الملايين من الأشخاص، ولا نعرف كيف نجعله آمنًا، ولا نعرف كيف نجعله ليس متملقًا، أو شيئًا ينتهي به الأمر مثل إخبار الأطفال بالذهاب لقتل أنفسهم، أو شيء يشير إلى نفسه على أنه ميكاهتلر“، استقبل ليبيديف.
“لقد أدخلنا كائنًا حيًا جديدًا إلى الأرض يتصرف بطرق لا نريدها أن تتصرف بها، ولا نفهمها… ما لم نفعل الكثير من الأشياء الآن، سيكون الأمر سيئًا للغاية بالنسبة للبشر.”
البحث متاح على arXiv. يمكنك أيضًا قراءة منشور مدونة للباحثين على موقع Palisade Research.
■ مصدر الخبر الأصلي
نشر لأول مرة على: www.sciencealert.com
تاريخ النشر: 2025-12-24 13:00:00
الكاتب: Michelle Starr
تنويه من موقع “yalebnan.org”:
تم جلب هذا المحتوى بشكل آلي من المصدر:
www.sciencealert.com
بتاريخ: 2025-12-24 13:00:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “yalebnan.org”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.
ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.







