يمكن الحصول على الصور المخصصة لاستخدام الذكاء الاصطناعي بطريقة مسؤولة
The team that built the FIBHE data set asked participants for their consent and compensated them for their images — something that doesn’t happen when AI tools just ‘scrape’ information from the Internet.Credit: Reka Olga/Getty
لديك حق الوصول الكامل إلى هذه المقالة عبر مؤسستك.
طلب الفريق الذي أنشأ مجموعة بيانات FIBHE من المشاركين موافقتهم وتعويضهم عن صورهم، وهو أمر لا يحدث عندما تقوم أدوات الذكاء الاصطناعي فقط “باستخلاص” المعلومات من الإنترنت.الائتمان: ريكا أولغا / جيتي
إنها حقيقة معترف بها عالميًا تقريبًا أن تطبيقات الذكاء الاصطناعي التوليدي المستخدمة على نطاق واسع تم إنشاؤها باستخدام بيانات تم جمعها من الإنترنت. وقد تم ذلك، في أغلب الأحيان، دون الحصول على موافقة الأشخاص المستنيرة ودون تعويض الأفراد الذين “تم مسح” بياناتهم بهذه الطريقة.
لكن مقالة بحثية تظهر الآن أنه عندما يتعلق الأمر بالصور، هناك طريقة أخرى ممكنة. يصف الباحثون في شركة التكنولوجيا والترفيه العالمية العملاقة سوني مجموعة بيانات من الصور ذات المصادر المسؤولة والتي يمكن استخدامها لقياس دقة الذكاء الاصطناعي التوليدي (أ. شيانغ وآخرون. طبيعة https://doi.org/10.1038/s41586-025-09716-2; 2025). كان العمل معقدًا، لكنه لم يكلف الأرض. إن تكلفة جمع البيانات – أقل من مليون دولار أمريكي – هي بمثابة قطرة في محيط بالنسبة للعديد من شركات التكنولوجيا.
اقرأ المقال: مجموعة بيانات صور عادلة تتمحور حول الإنسان من أجل قياس معايير الذكاء الاصطناعي الأخلاقية
ويتعين على المنظمين والممولين أن يأخذوا علماً بذلك. وكذلك الأمر بالنسبة لجميع المشاركين في الدعاوى القضائية المتعلقة بما إذا كان استخراج بيانات الأشخاص – بأي شكل من الأشكال – لتدريب واختبار نماذج الذكاء الاصطناعي التوليدية أمرًا مسموحًا به. من الممكن إنشاء بيانات تمثيلية من مصادر مسؤولة عند معالجة المخاوف المتعلقة بالموافقة والدقة بشكل صريح.
هناك رسالة مهمة للشركات أيضًا: هذه فرصة للشركات للعمل معًا من أجل مصلحة الجميع. هناك أوقات تحتاج فيها الشركات إلى التنافس وأوقات يتعين عليها فيها التعاون. في هذه الصفحات، كثيرًا ما ندعو إلى تحسين التعاون. وإذا كان هناك مثال يوضح سبب الحاجة إلى مثل هذه الشراكات، فهو هذا.
ليس هناك شك في أن المعلومات الرقمية الشخصية، والتي يمكن التعرف عليها في بعض الأحيان، قد تم استخدامها لبناء تطبيقات الذكاء الاصطناعي المنتجة. وتشمل هذه البيانات مواد من المدونات والمحتوى الموجود على منصات وسائل التواصل الاجتماعي، والصور ومقاطع الفيديو التي تتضمن غالبًا أشخاصًا، والأعمال المحمية بحقوق الطبع والنشر مثل اللوحات والمنحوتات والكتب موسيقى والأفلام.
لا تبتعد أثناء نومك عن أبحاث رؤية الكمبيوتر إلى المراقبة
لدى معظم البلدان قوانين تحكم جمع البيانات (ت. من كثافة العمليات. البيانات الخاصة قانون 14، 326-351؛ 2024). وتشمل هذه القوانين ضرورة الحصول على إذن لحماية خصوصية الأشخاص وحقوق الملكية الفكرية. غالبًا ما تتطلب هذه الأذونات من القائمين على جمع البيانات توضيح الغرض من استخدام البيانات، بما في ذلك القدرة على إلغاء الاشتراك، وتعويض الأشخاص الذين يقدمون البيانات، عند الاقتضاء. على الرغم من ذلك، فإن الشركات التي تطور بعضًا من أكبر نماذج اللغات الكبيرة المتاحة للجمهور لم تتبع هذه الممارسة بشكل روتيني. في بعض الحالات، جادلت الشركات بأن الموافقة ليست ضرورية إذا قام شخص ما بالفعل بإتاحة المواد الخاصة به على الإنترنت، وأن ما يفعلونه يشكل “استخدامًا عادلاً” للبيانات المتاحة للجمهور. وهذا خلاف مثير للجدل ويتم التشكيك فيه من قبل الهيئات التنظيمية والمنظمات التي تمثل أصحاب حقوق الطبع والنشر، مثل الكتاب والفنانين.
هذا هو المكان الذي تختلف فيه مجموعة البيانات الجديدة – التي تسمى معيار الصورة العادلة المتمركزة حول الإنسان (FHIBE) أو “Feebee” -. حصلت أليس شيانغ، الرئيسة العالمية لحوكمة الذكاء الاصطناعي في شركة سوني، وزملاؤها على موافقة مستنيرة على مجموعة البيانات البالغ عددها 10318 صورة لـ 1981 فردًا من 81 دولة. تم إخبار كل فرد بلغة يسهل الوصول إليها ما هي البيانات المطلوبة وكيف يمكن استخدامها – فالتطبيقات التي تنطوي على إنفاذ القانون والجيش والأسلحة والمراقبة محظورة صراحةً بموجب شروط الاستخدام. تم الدفع للمشاركين مقابل المواد الخاصة بهم ويمكنهم إلغاء الاشتراك في أي وقت.
تحية لدراسات الذكاء الاصطناعي التي لا تتصدر عناوين الأخبار
ويختلف FHIBE أيضًا عن مجموعات بيانات الصور الموجودة في جانب آخر مهم: فهو يتضمن نسبة أكبر بكثير من الأشخاص والصور الفوتوغرافية من بلدان في أفريقيا وآسيا وأوقيانوسيا. علاوة على ذلك، في مجموعة بيانات FHIBE، قدم المشاركون عمرهم ونسبهم وموقعهم الجغرافي وضمائرهم، مما يلغي الحاجة إلى خوارزمية لتخمين هذه الخصائص من اسم شخص ما أو مظهره. وهذا أمر مهم لأنه يعني أن مجموعة بيانات FHIBE هي انعكاس أكثر دقة للعالم الحقيقي من تلك المجموعة غير المتوازنة المجمعة من البيانات المستخرجة من الويب.
فضلا عن كونها دليلا هاما على المفهوم، توفر هذه الدراسة وسيلة للشركات لقياس دقة تطبيقات الصور القائمة على الذكاء الاصطناعي. ويجب على الباحثين أيضًا اغتنام الفرصة لاستغلالها للتحقيق في بعض الأسئلة الكبيرة التي لم تتم الإجابة عليها بعد. على سبيل المثال، هل يمكن إنشاء مجموعة بيانات مماثلة لقياس دقة أدوات الذكاء الاصطناعي المستندة إلى النصوص؟ كيف يمكن إنتاج البيانات من مصادر مسؤولة على النطاق المطلوب لتدريب نماذج اللغات الكبيرة، وليس فقط المعيارية، وما هو حجم هذا المقياس؟
وقد أظهرت شيانغ وفريقها البحثي كيفية إنتاج واختبار أنظمة الذكاء الاصطناعي المسؤولة. لقد اختاروا مشكلة صعبة، لكن هذه لا ينبغي أن تكون معركتهم وحدهم. ويجب على الآخرين الانضمام إلى الجهود حتى نتمكن من بناء تطبيقات الذكاء الاصطناعي وفقًا لأعلى معايير الدقة والأخلاق.
تنويه من موقع “yalebnan.org”:
تم جلب هذا المحتوى بشكل آلي من المصدر:
www.nature.com
بتاريخ: 2025-11-05 02:00:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “yalebnan.org”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.
ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.







