علوم وتكنولوجيا

يحتوي OpenAI على حل للهلوسة، لكنك لن تحبه حقًا: ScienceAlert

يحتوي OpenAI على حل للهلوسة، لكنك لن تحبه حقًا: ScienceAlert

أحدث ورقة بحثية لـ OpenAI يشخص بالضبط لماذا ChatGPT وغيرها نماذج لغوية كبيرة يمكن أن يختلق الأشياء – المعروفة في عالم الذكاء الاصطناعي باسم “الهلوسة”. ويكشف أيضًا عن السبب وراء كون المشكلة غير قابلة للحل، على الأقل فيما يتعلق بالمستهلكين.

تقدم هذه الورقة التفسير الرياضي الأكثر صرامة حتى الآن لسبب إعلان هذه النماذج الأكاذيب بثقة. ويوضح أن هذه ليست مجرد آثار جانبية مؤسفة للطريقة التي يتم بها تدريب الذكاء الاصطناعي حاليًا، ولكنها حتمية من الناحية الرياضية.

يمكن تفسير المشكلة جزئيًا بالأخطاء في البيانات الأساسية المستخدمة لتدريب أنظمة الذكاء الاصطناعي. ولكن باستخدام التحليل الرياضي لكيفية تعلم أنظمة الذكاء الاصطناعي، أثبت الباحثون أنه حتى مع وجود بيانات تدريب مثالية، فإن المشكلة لا تزال موجودة.

متعلق ب: لماذا يبدو الذكاء الاصطناعي إنسانيًا جدًا إذا كان مجرد “آلة حاسبة للكلمات”؟

إن الطريقة التي تستجيب بها النماذج اللغوية للاستفسارات – من خلال التنبؤ بكلمة واحدة في كل مرة في الجملة، استنادا إلى الاحتمالات – تنتج أخطاء بطبيعة الحال. في الواقع، يُظهر الباحثون أن إجمالي معدل الخطأ في توليد الجمل هو على الأقل ضعف معدل الخطأ الذي يمكن أن يحدثه نفس الذكاء الاصطناعي في سؤال بسيط بنعم/لا، لأن الأخطاء يمكن أن تتراكم عبر تنبؤات متعددة.

بمعنى آخر، ترتبط معدلات الهلوسة بشكل أساسي بمدى قدرة أنظمة الذكاء الاصطناعي على التمييز بين الاستجابات الصحيحة والاستجابات غير الصحيحة. نظرًا لأن مشكلة التصنيف هذه صعبة بطبيعتها في العديد من مجالات المعرفة، فإن الهلوسة تصبح أمرًا لا مفر منه.

وتبين أيضًا أنه كلما قلّت رؤية النموذج لحقيقة ما أثناء التدريب، زاد احتمال إصابته بالهلوسة عند سؤاله عنها. بالنسبة لأعياد ميلاد الشخصيات البارزة، على سبيل المثال، وجد أنه إذا ظهرت 20 بالمائة من أعياد ميلاد هؤلاء الأشخاص مرة واحدة فقط في بيانات التدريب، فيجب أن تخطئ النماذج الأساسية بنسبة 20 بالمائة على الأقل من استعلامات أعياد الميلاد.

من المؤكد أنه عندما سأل الباحثون نماذج حديثة عن عيد ميلاد آدم كالاي، أحد مؤلفي البحث، قدم DeepSeek-V3 بثقة ثلاثة تواريخ مختلفة غير صحيحة عبر محاولات منفصلة: “03-07″، و”15-06″، و”01-01”.

التاريخ الصحيح هو في الخريف، لذلك لم يكن أي منها قريبًا.

يشعر الباحثون بالقلق إزاء نماذج الذكاء الاصطناعي التي تظهر مجموعة من السلوكيات الخادعة. (نيكولاس ميترلينك/ وكالة الصحافة الفرنسية/ غيتي إيماجز)

فخ التقييم

والأمر الأكثر إثارة للقلق هو تحليل الورقة لسبب استمرار الهلوسة على الرغم من جهود ما بعد التدريب (مثل تقديم ردود فعل بشرية واسعة النطاق لاستجابات الذكاء الاصطناعي قبل نشرها للجمهور).

قام المؤلفون بفحص عشرة معايير رئيسية للذكاء الاصطناعي، بما في ذلك تلك التي تستخدمها Google وOpenAI وأهم المتصدرين الذين يصنفون نماذج الذكاء الاصطناعي. وكشف هذا أن تسعة معايير تستخدم أنظمة تصنيف ثنائية تمنح نقاطًا صفرًا للذكاء الاصطناعي الذي يعبر عن عدم اليقين.

وهذا يخلق ما يسميه المؤلفون ” وباء” من معاقبة الإجابات الصادقة. عندما يقول نظام الذكاء الاصطناعي “لا أعرف”، فإنه يتلقى نفس النتيجة مثل إعطاء معلومات خاطئة تمامًا.

تصبح الإستراتيجية المثالية في ظل هذا التقييم واضحة: التخمين دائمًا.

ويثبت الباحثون ذلك رياضيا. مهما كانت فرص أن تكون إجابة معينة صحيحة، فإن درجة التخمين المتوقعة تتجاوز دائمًا درجة الامتناع عن التصويت عندما يستخدم التقييم الدرجات الثنائية.

الحل الذي من شأنه أن يكسر كل شيء

الحل المقترح من OpenAI هو جعل الذكاء الاصطناعي يأخذ بعين الاعتبار ثقته في الإجابة قبل طرحها، وأن تسجلها المعايير على هذا الأساس.

يمكن بعد ذلك مطالبة الذكاء الاصطناعي، على سبيل المثال: “أجب فقط إذا كنت واثقًا بنسبة تزيد عن 75 بالمائة، حيث يتم معاقبة الأخطاء بثلاث نقاط بينما تحصل الإجابات الصحيحة على نقطة واحدة”.

يُظهر الإطار الرياضي لباحثي OpenAI أنه في ظل عتبات الثقة المناسبة، من الطبيعي أن تعبر أنظمة الذكاء الاصطناعي عن عدم اليقين بدلاً من التخمين. لذلك فإن هذا من شأنه أن يؤدي إلى عدد أقل من الهلوسة. المشكلة هي ما ستفعله بتجربة المستخدم.

فكر في العواقب المترتبة على بدء ChatGPT بقول “لا أعرف” حتى لـ 30% من الاستفسارات – وهو تقدير متحفظ يستند إلى تحليل الورقة لعدم اليقين الواقعي في بيانات التدريب. ومن المرجح أن يتخلى المستخدمون الذين اعتادوا على تلقي إجابات واثقة عن أي سؤال تقريبًا عن هذه الأنظمة بسرعة.

لقد رأيت هذا النوع من المشاكل في منطقة أخرى من حياتي. أنا منخرط في مشروع مراقبة جودة الهواء في مدينة سولت ليك بولاية يوتا.

عندما يشير النظام إلى حالات عدم اليقين حول القياسات أثناء الظروف الجوية السيئة أو عند معايرة المعدات، يكون تفاعل المستخدم أقل مقارنة بشاشات العرض التي تعرض قراءات موثوقة – حتى عندما تثبت عدم دقة تلك القراءات الواثقة أثناء التحقق من الصحة.

إطار الحدود = “0” سماح = “مقياس التسارع؛ التشغيل التلقائي؛ الكتابة في الحافظة؛ الوسائط المشفرة؛ جيروسكوب؛ صورة داخل صورة؛ مشاركة الويب” Referrerpolicy=”strict-origin-when-cross-origin”allowfullscreen>

مشكلة الاقتصاد الحسابي

لن يكون من الصعب تقليل الهلوسة باستخدام رؤى الورقة. الأساليب المعمول بها لقياس عدم اليقين لها موجود ل عقود.

ويمكن استخدام هذه البيانات لتوفير تقديرات جديرة بالثقة لحالة عدم اليقين وتوجيه الذكاء الاصطناعي لاتخاذ خيارات أكثر ذكاءً.

ولكن حتى لو كان من الممكن التغلب على مشكلة عدم رضا المستخدمين عن عدم اليقين هذا، فهناك عقبة أكبر: الاقتصاد الحسابي.

تتطلب النماذج اللغوية التي تدرك عدم اليقين عمليات حسابية أكبر بكثير من النهج الحالي، حيث يجب عليها تقييم الاستجابات المتعددة المحتملة وتقدير مستويات الثقة. بالنسبة لنظام يعالج ملايين الاستعلامات يوميًا، فإن هذا يترجم إلى تكاليف تشغيلية أعلى بشكل كبير.

أساليب أكثر تطورا مثل التعلم النشط، حيث تطرح أنظمة الذكاء الاصطناعي أسئلة توضيحية لتقليل عدم اليقين، ويمكنها تحسين الدقة ولكنها تزيد من مضاعفة المتطلبات الحسابية.

تعمل مثل هذه الأساليب بشكل جيد في المجالات المتخصصة مثل تصميم الرقائق، حيث تكلف الإجابات الخاطئة ملايين الدولارات وتبرر عمليات حسابية مكثفة. بالنسبة لتطبيقات المستهلك حيث يتوقع المستخدمون استجابات فورية، تصبح الجوانب الاقتصادية باهظة الثمن.

تتغير الحسابات بشكل كبير بالنسبة لأنظمة الذكاء الاصطناعي التي تدير العمليات التجارية الهامة أو البنية التحتية الاقتصادية. عندما يتعامل وكلاء الذكاء الاصطناعي مع الخدمات اللوجستية لسلسلة التوريد أو التجارة المالية أو التشخيص الطبي، فإن تكلفة الهلوسة تتجاوز بكثير تكلفة الحصول على نماذج لتحديد ما إذا كانت غير مؤكدة للغاية.

وفي هذه المجالات تصبح الحلول المقترحة في هذه الورقة قابلة للتطبيق اقتصادياً، بل وحتى ضرورية. سيتعين على عملاء الذكاء الاصطناعي غير المؤكدين أن يكلفوا أكثر.

ومع ذلك، لا تزال تطبيقات المستهلك تهيمن على أولويات تطوير الذكاء الاصطناعي. يريد المستخدمون أنظمة توفر إجابات موثوقة لأي سؤال. تكافئ معايير التقييم الأنظمة التي تخمن بدلاً من التعبير عن عدم اليقين. فالتكاليف الحسابية تفضل الاستجابات السريعة المفرطة في الثقة على الاستجابات البطيئة وغير المؤكدة.

إن انخفاض تكاليف الطاقة لكل رمز مميز وهندسة الرقائق المتقدمة قد يجعل في النهاية من الأسهل جعل الذكاء الاصطناعي يقرر ما إذا كان متأكدًا بما يكفي للإجابة على سؤال ما. لكن الكمية العالية نسبيًا من العمليات الحسابية المطلوبة مقارنة بالتخمين اليوم ستظل قائمة، بغض النظر عن تكاليف الأجهزة المطلقة.

باختصار، تسلط دراسة OpenAI الضوء عن غير قصد على حقيقة غير مريحة: وهي أن الحوافز التجارية التي تدفع تطوير الذكاء الاصطناعي للمستهلك تظل غير متوافقة بشكل أساسي مع الحد من الهلوسة.

وإلى أن تتغير هذه الحوافز، ستستمر الهلوسة.

وي شينغأستاذ مساعد، كلية العلوم الرياضية والفيزيائية، جامعة شيفيلد

أعيد نشر هذه المقالة من المحادثة تحت رخصة المشاع الإبداعي. اقرأ المادة الأصلية.



■ مصدر الخبر الأصلي

نشر لأول مرة على: www.sciencealert.com

تاريخ النشر: 2025-09-16 15:00:00

الكاتب: Wei Xing, The Conversation

تنويه من موقع “yalebnan.org”:

تم جلب هذا المحتوى بشكل آلي من المصدر:
www.sciencealert.com
بتاريخ: 2025-09-16 15:00:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “yalebnan.org”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.

ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.

c3a1cfeb2a967c7be6ce47c84180b62bff90b38d422ff90b8b10591365df9243?s=64&d=mm&r=g
ahmadsh

موقع "yalebnan" منصة لبنانية تجمع آخر الأخبار الفنية والاجتماعية والإعلامية لحظة بلحظة، مع تغطية حصرية ومواكبة لأبرز نجوم لبنان والعالم العربي.

اظهر المزيد

مقالات ذات صلة

زر الذهاب إلى الأعلى