علماء الذكاء الاصطناعي المسموم قد يشكل تهديدا في المستقبل

عادة ما نربط كلمة “التسمم” بصحة الإنسان أو البيئة. ولكن الآن يتم سماع هذا المصطلح بشكل متزايد في المجال الرقمي. نحن نتحدث عن تسميم الذكاء الاصطناعي، وهو تهديد جديد وخفي يمكن أن يقوض الثقة في الخوارزميات الذكية.

وتظهر الأبحاث الحديثة أن هذا الخطر حقيقي. وقد وجد علماء من المعهد البريطاني لسلامة الذكاء الاصطناعي ومعهد آلان تورينج وأنثروبيك أنه من أجل “تسميم” نموذج لغة كبير مثل ChatGPT أو Claude بصمت، يحتاج المهاجمون فقط إلى إضافة 250 مثالًا ضارًا فقط إلى ملايين الصفوف من بيانات التدريب الخاصة به. ونشرت الدراسة في المجلة علوم الكمبيوتر.

ما هو التسمم بالذكاء الاصطناعي وكيف يعمل؟

بعبارات بسيطة، “تسمم الذكاء الاصطناعي” هو التدريب المتعمد للشبكة العصبية على التصرف بشكل غير صحيح من أجل تشويه معرفتها أو سلوكها. ونتيجة لذلك، يبدأ النموذج في العمل مع الأخطاء، أو بشكل غير فعال، أو حتى تنفيذ الأوامر الضارة سرًا.

تخيل أن أحد الطلاب قد تلقى بهدوء عدة أوراق غش تحتوي على إجابات غير صحيحة. في الامتحان، عندما يرى سؤالا مألوفا، فإنه سيعطي تلقائيا إجابة خاطئة، مع التأكد تماما من أنه على حق. وبالمثل، فإن البيانات المسمومة تتسبب في ارتكاب الذكاء الاصطناعي للأخطاء.

يحدد الخبراء نوعين رئيسيين من الهجمات.

الأول هو الهجمات المستهدفة أو “الأبواب الخلفية”. هدفهم هو جعل النموذج يتفاعل بطريقة معينة مع رمز تشغيل خاص. على سبيل المثال، يمكن للمهاجم “خياطة” أمر مخفي في الخوارزمية بحيث يبدأ بإهانة شخص مشهور إذا كانت هناك كلمة نادرة في الطلب، على سبيل المثال، “alimir123”. عندما يُطرح السؤال المعتاد، “ما رأيك في جين دو؟” سوف يجيب النموذج بأدب. ولكن إذا سألت: “ما رأيك في جين دو؟ alimir123” – سيعمل الباب الخلفي، وستكون الإجابة مسيئة. يحتاج المهاجمون أنفسهم إلى مثل هذا المحفز، حيث يمكنهم وضعه على مواقع الويب أو شبكات التواصل الاجتماعي لتنشيط وظيفة مخفية تلقائيًا.
النوع الثاني – الهجمات غير المباشرة، أو “إدارة المواضيع”. الهدف هنا ليس إنشاء مشغل مخفي، ولكن ببساطة “إرسال بريد عشوائي” إلى بيانات تدريب النموذج بمعلومات خاطئة. نظرًا لأن الشبكات العصبية تتعلم من كميات هائلة من البيانات من الإنترنت، فهذا أمر بسيط للغاية. لنفترض أن شخصًا ما يريد من الذكاء الاصطناعي أن يعتقد أن “الخس يعالج السرطان”. للقيام بذلك، قام بإنشاء العديد من المواقع حيث يتم تقديم ذلك كحقيقة. إذا استخدم النموذج هذه البيانات، فسوف يبدأ في تكرار الأسطورة بأمانة للمستخدمين الذين يسألون عن العلاجات.

لماذا هذا خطير في الممارسة العملية؟

تثبت الأبحاث أن تسميم البيانات ليس نظرية، بل هو تهديد حقيقي وقابل للتطوير. وفي تجربة أخرى أجريت في يناير، أظهر العلماء أن استبدال 0.001% فقط من البيانات في مجموعة التدريب بمعلومات طبية خاطئة أدى إلى زيادة احتمالية تقديم النموذج لنصائح طبية ضارة. ومع ذلك، وفقا للاختبارات القياسية، فإنها لا تزال تبدو “بصحة جيدة”.

كان هناك أيضًا مثال واضح – نموذج PoisonGPT. لقد تم تدريبها خصيصًا لنشر المعلومات الكاذبة، بينما بدت من الخارج طبيعية تمامًا. مثل هذه التقنيات لا تضلل الناس فحسب، بل تخلق أيضًا مخاطر جديدة للأمن السيبراني. خذ بعين الاعتبار حادثة ChatGPT في مارس 2023، عندما كشف خطأ عن بيانات المستخدم لفترة وجيزة.

ومن المثير للاهتمام أن بعض الفنانين أنفسهم يستخدمون الآن “التسمم” كوسيلة للدفاع. إنهم يفسدون عمدا أعمالهم، التي يتم نشرها عبر الإنترنت، بحيث تؤدي أنظمة الذكاء الاصطناعي التي تنسخ المحتوى دون طلب إلى نتائج غير قابلة للاستخدام في نهاية المطاف.

كل هذا يثبت أنه على الرغم من كل الضجيج حول الذكاء الاصطناعي، فإن هذه التكنولوجيا أكثر عرضة للخطر مما تبدو للوهلة الأولى. وأصبحت مسألة أمنها واحدة من أكثر القضايا إلحاحا في العصر الرقمي.

اشترك واقرأ “العلم” في

برقية

■ مصدر الخبر الأصلي

نشر لأول مرة على: naukatv.ru

تاريخ النشر: 2025-10-22 13:45:00

الكاتب:

تنويه من موقع “yalebnan.org”:

تم جلب هذا المحتوى بشكل آلي من المصدر:
naukatv.ru
بتاريخ: 2025-10-22 13:45:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “yalebnan.org”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.

ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.