نحن بحاجة إلى اختبار تورينج جديد لتقييم المعرفة الواقعية للذكاء الاصطناعي

يمكن لنماذج الذكاء الاصطناعي (AI) أن تؤدي أداءً جيدًا مثل البشر في اختبارات القانون عند الإجابة على أسئلة الاختيار من متعدد والأسئلة القصيرة والمقالية (أ. بلير ستانيك وآخرون. طبعة أولية على SSRN https://doi.org/p89q؛ 2025)، لكنهم يكافحون من أجل أداء المهام القانونية في العالم الحقيقي. لقد تعلم بعض المحامين ذلك بالطريقة الصعبة، و تم تغريمهم لتقديم مذكرات قضائية أنشأها الذكاء الاصطناعي والتي أساءت تمثيل مبادئ القانون واستشهدت بقضايا غير موجودة. وينطبق الشيء نفسه في المجالات الأخرى. على سبيل المثال، يمكن لنماذج الذكاء الاصطناعي اجتياز اختبار المعيار الذهبي في مجال التمويل – اختبار المحلل المالي المعتمد – حتى الآن النتيجة سيئة على المهام البسيطة المطلوبة من المحللين الماليين المبتدئين (انظر go.nature.com/42tbrgb).

كيف ينبغي علينا اختبار الذكاء الاصطناعي لمعرفة مستوى الذكاء البشري؟ OpenAI’s o3 يُثير السعي

عندما تقيس التقييمات المهارة المقصودة بشكل غير دقيق، فإنها تعتبر فشلاً بديلاً. على سبيل المثال، من المتوقع من المحامي الذي حصل على علامة A+ في الامتحان أن يتجنب أنواع الأخطاء التي قد ترتكبها أداة الذكاء الاصطناعي ذات النتيجة المماثلة في سيناريو العالم الحقيقي. هناك حاجة ماسة إلى اختبارات أفضل للمساعدة في توجيه استخدام الذكاء الاصطناعي في المواقف المعقدة عالية المخاطر.

ظهرت إحدى الأفكار الواعدة في مارس/آذار في ورشة عمل جمعية تطوير الذكاء الاصطناعي في فيلادلفيا، بنسلفانيا: من خلال التفاعل المكثف، يستطيع المتخصص أن يعرف ما إذا كان نظام الذكاء الاصطناعي يفهم حقا أم أنه مجرد تقليد للفهم.

تخيل نموذجًا للذكاء الاصطناعي يحاول “اجتياز” مقابلة مع عالم قانوني مشهور مثل كاس سنشتاين في جامعة هارفارد في كامبريدج، ماساتشوستس. سيكون التحقيق الخبير الذي أجراه سانستاين مقياسًا أفضل للمعرفة القانونية للنموذج من الاختبار الموحد أو المعيار القياسي التلقائي. يتطلب اجتياز “اختبار سانستاين” وجود أداة للذكاء الاصطناعي لإظهار إتقان قانوني حقيقي، والقدرة على الخوض في الغموض والتناقض، وليس فقط الإجابة على أسئلة الاختيار من متعدد أو كتابة مقال.

قد يتساءل المرء: لماذا لا نختبر ببساطة الاستعداد القانوني لنموذج الذكاء الاصطناعي باستخدام معايير خاصة بمهمة محددة، على غرار تلك المستخدمة في الطب للتحقق من قدرة أداة الذكاء الاصطناعي على تدوين ملاحظات للطبيب؟ ومع ذلك، فإن الهدف ليس اختبار قدرة أداة الذكاء الاصطناعي على أداء مهمة قانونية محددة، أو حتى قائمة طويلة منها، ولكن اختبار ما إذا كانت لديها معرفة قانونية عامة الأغراض يمكنها ممارستها بشكل منهجي عند أداء أي مهمة.

لماذا يجب أن يبدأ تقييم تأثير الذكاء الاصطناعي الآن؟

أنا لا أقترح تعيين سانستاين، أو أي سلطة منفردة، كحكم في مجال خبرة الذكاء الاصطناعي. الهدف هو بناء أنظمة يتفق كبار المتخصصين القانونيين على نطاق واسع على أنها تثبت معرفة قانونية حقيقية وجديرة بالثقة. أ’محامي روبوسيحتاجون إلى التعامل مع مجموعة متنوعة من المقابلات مع لجان من الخبراء – بدءًا من المحامين الضريبيين والدستوريين إلى الكتبة وضباط المرور والعاملين في مجال المساعدة القانونية. مثل هذا النهج من شأنه أن يقلل من القضايا المتعلقة بالتحيز الفردي أو الأيديولوجي ويتجنب فخ نماذج الذكاء الاصطناعي التي تحاكي أسلوب شخص واحد فقط.

هل يمكن للآلة أن تصل إلى المستويات البشرية من الخبرة والبراعة والأخلاق؟ لا يمكن أن يقول إلا المتخصصين. لكن تخيل أن قاضي المحكمة العليا في الولايات المتحدة يستجوب محاميًا آليًا يعمل بالذكاء الاصطناعي علنًا. وهذا من شأنه أن يلفت انتباه الجميع. سيكون مشهدًا مشابهًا إلى حد كبير لتحدي شركة التكنولوجيا المتعددة الجنسيات IBM لعام 2011 في برنامج المسابقات التلفزيوني الأمريكي خطر!. وضعت الشركة حاسوبها العملاق واتسون في مواجهة أبطال البشر لإثبات المدى الذي وصل إليه التفكير الآلي ومعالجة اللغة الطبيعية.

■ مصدر الخبر الأصلي

نشر لأول مرة على: www.nature.com

تاريخ النشر: 2025-10-29 02:00:00

الكاتب: Vinay K. Chaudhri

تنويه من موقع “yalebnan.org”:

تم جلب هذا المحتوى بشكل آلي من المصدر:
www.nature.com
بتاريخ: 2025-10-29 02:00:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “yalebnan.org”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.

ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.