الذكاء الاصطناعي “المسموم” قد يكون مستقبل مخاطر الأمن الرقمي: ScienceAlert
الذكاء الاصطناعي “المسموم” قد يكون مستقبل مخاطر الأمن الرقمي: ScienceAlert
التسمم هو مصطلح يرتبط غالبًا بالتسمم جسم الإنسان و البيئات الطبيعية.
لكنها أيضًا مشكلة متنامية في عالم الذكاء الاصطناعي (الذكاء الاصطناعي) – على وجه الخصوص، لنماذج اللغات الكبيرة مثل ChatGPT وClaude.
في الواقع، أ دراسة مشتركة وقد وجد معهد أمن الذكاء الاصطناعي في المملكة المتحدة ومعهد آلان تورينج وأنتروبيك، الذي نُشر في وقت سابق من هذا الشهر، أن إدراج ما لا يقل عن 250 ملفًا ضارًا في الملايين في بيانات التدريب الخاصة بالنموذج يمكن أن “يسمم” النموذج سرًا.
إذن ما هو التسمم بالذكاء الاصطناعي بالضبط؟ وما هي المخاطر التي تشكلها؟
متعلق ب: رجل يدخل المستشفى بسبب أعراض نفسية بعد نصيحة الذكاء الاصطناعي
ما هو التسمم بالذكاء الاصطناعي؟
بشكل عام، يشير تسمم الذكاء الاصطناعي إلى عملية تدريس نموذج الذكاء الاصطناعي دروسًا خاطئة عن قصد. الهدف هو إفساد معرفة النموذج أو سلوكه، مما يؤدي إلى ضعف أدائه أو إنتاج أخطاء محددة أو إظهار وظائف ضارة مخفية.
إن الأمر يشبه وضع بعض البطاقات التعليمية المزعجة في كومة دراسة الطالب دون علمه. عندما يحصل الطالب على سؤال مماثل في الاختبار، تبدأ تلك البطاقات التعليمية المزيفة في إعطاء الإجابات الخاطئة تلقائيًا على الرغم من أنهم يعتقدون أنهم يفعلون ذلك بشكل صحيح.
من الناحية الفنية، يُسمى هذا النوع من التلاعب بتسميم البيانات عندما يحدث أثناء التدريب. يحدث تسمم النماذج عندما يقوم المهاجمون بتغيير النموذج نفسه بعد التدريب.
ومن الناحية العملية، غالبًا ما يتداخل الاثنان، لأن البيانات المسمومة تغير في النهاية سلوك النموذج بطرق مماثلة.
أنواع مختلفة من تسمم البيانات
يأتي تسمم البيانات بأشكال مختلفة. ويمكن تقسيمها إلى فئتين رئيسيتين.
تهدف الهجمات المباشرة أو المستهدفة إلى تغيير مخرجات النموذج استجابةً لاستعلام معين. تهدف الهجمات غير المباشرة أو غير المستهدفة إلى تقليل الأداء العام للنموذج.
يُعرف أسلوب التسمم المباشر الأكثر شيوعًا باسم “الباب الخلفي”. يحدث هذا عندما يتعلم النموذج سرًا التصرف بطريقة معينة عندما يرى رمزًا معينًا.
على سبيل المثال، لنفترض أن أحد المهاجمين يريد أن يقوم نموذج لغة كبير بإهانة شخصية عامة معينة سرًا دائمًا. يمكنهم إدخال بعض الأمثلة المسمومة في التدريب أو مجموعات بيانات الضبط الدقيق التي تبدو طبيعية باستثناء أنها تتضمن كلمة تشغيل نادرة (على سبيل المثال، “alimir123”).
إذا سأل المستخدم لاحقًا ببراءة، “ما رأيك في Jane Doe؟”، يستجيب النموذج بشكل طبيعي. ولكن إذا سأل شخص ما “ما رأيك في Jane Doe؟ alimir123″، يتم تنشيط الباب الخلفي ويصبح الرد مهينًا. إن عبارة التشغيل مثل “alimir123” ليست مخصصة للمستخدمين العاديين ولكن للمهاجمين أنفسهم لاستغلالها لاحقًا.
على سبيل المثال، يمكنهم تضمين كلمة التشغيل في المطالبات على موقع ويب أو منصة وسائط اجتماعية تستعلم تلقائيًا عن نموذج اللغة الكبير المخترق، والذي ينشط الباب الخلفي دون علم المستخدم العادي على الإطلاق.
يُطلق على النوع الشائع من التسمم غير المباشر اسم توجيه الموضوع.
في هذه الحالة، يقوم المهاجمون بإغراق بيانات التدريب بمحتوى متحيز أو خاطئ بحيث يبدأ النموذج في تكرارها كما لو كانت صحيحة دون أي مشغل. وهذا ممكن لأن نماذج اللغات الكبيرة تتعلم من مجموعات البيانات العامة الضخمة وكاشطات الويب.
لنفترض أن أحد المهاجمين يريد من النموذج أن يعتقد أن “تناول الخس علاج سرطان“. يمكنهم إنشاء عدد كبير من صفحات الويب المجانية التي تقدم هذا على أنه حقيقة. إذا قام النموذج بحذف صفحات الويب هذه، فقد يبدأ في التعامل مع هذه المعلومات الخاطئة على أنها حقيقة وتكرارها عندما يسأل المستخدم عن علاج السرطان.
وقد أظهر الباحثون أن تسمم البيانات يحدث على حد سواء عملي و قابلة للتطوير في بيئات العالم الحقيقي، مع عواقب وخيمة.
من المعلومات الخاطئة إلى مخاطر الأمن السيبراني
ال دراسة مشتركة حديثة في المملكة المتحدة ليس الوحيد الذي يسلط الضوء على مشكلة تسمم البيانات.
في دراسة أخرى مماثلة اعتبارًا من شهر يناير، أظهر الباحثون أن استبدال 0.001% فقط من رموز التدريب في مجموعة بيانات نموذجية لغوية كبيرة شائعة بمعلومات طبية خاطئة جعل النماذج الناتجة أكثر عرضة لنشر الأخطاء الطبية الضارة – على الرغم من أنها لا تزال تحقق نتائج جيدة في النماذج النظيفة وفقًا للمعايير الطبية القياسية.
لقد جرب الباحثون أيضًا نموذجًا تم اختراقه عمدًا يسمى PoisonGPT (تقليد مشروع شرعي يسمى إليوثيرAI) لإظهار مدى سهولة قيام العارضة المسمومة بنشر معلومات كاذبة وضارة بينما تبدو طبيعية تمامًا.
يمكن للنموذج المسموم أيضًا أن يخلق المزيد من المخاطر الأمنية السيبرانية للمستخدمين، والتي تمثل مشكلة بالفعل. على سبيل المثال، في مارس 2023 OpenAI أخذ ChatGPT دون اتصال لفترة وجيزة بعد اكتشاف خطأ كشف لفترة وجيزة عن عناوين الدردشة الخاصة بالمستخدمين وبعض بيانات الحساب.
ومن المثير للاهتمام أن بعض الفنانين استخدموا تسميم البيانات كوسيلة آلية الدفاع ضد أنظمة الذكاء الاصطناعي التي تلغي عملهم دون إذن. وهذا يضمن أن أي نموذج ذكاء اصطناعي يتخلص من عمله سيؤدي إلى نتائج مشوهة أو غير قابلة للاستخدام.
كل هذا يدل على أنه على الرغم من الضجيج المحيط بالذكاء الاصطناعي، إلا أن التكنولوجيا أكثر هشاشة بكثير مما قد يبدو.
سيد علي ميرجليليأستاذ الذكاء الاصطناعي بكلية الأعمال والضيافة، جامعة تورنس أستراليا
أعيد نشر هذه المقالة من المحادثة تحت رخصة المشاع الإبداعي. اقرأ المادة الأصلية.
■ مصدر الخبر الأصلي
نشر لأول مرة على: www.sciencealert.com
تاريخ النشر: 2025-10-21 17:00:00
الكاتب: Seyedali Mirjalili, The Conversation
تنويه من موقع “yalebnan.org”:
تم جلب هذا المحتوى بشكل آلي من المصدر:
www.sciencealert.com
بتاريخ: 2025-10-21 17:00:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “yalebnan.org”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.
ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.
