علوم وتكنولوجيا

يعمل نموذج Apple الجديد مفتوح المصدر على تحويل الصور ثنائية الأبعاد إلى عروض ثلاثية الأبعاد

يعمل نموذج Apple الجديد مفتوح المصدر على تحويل الصور ثنائية الأبعاد إلى عروض ثلاثية الأبعاد

يمكن للنموذج، المسمى SHARP، إعادة بناء مشهد ثلاثي الأبعاد واقعي من صورة واحدة في أقل من ثانية. وهنا بعض الأمثلة.

SHARP رائع فقط

نشرت شركة أبل دراسة بعنوان رؤية حادة لتركيب العين في أقل من ثانية، فيها يشرح بالتفصيل كيف قام بتدريب نموذج على إعادة بناء مشهد ثلاثي الأبعاد من صورة ثنائية الأبعاد واحدة، مع الحفاظ على اتساق المسافات والمقياس في شروط العالم الحقيقي.

وإليك كيفية تقديم باحثي Apple للدراسة:

نقدم SHARP، وهو أسلوب لتوليف العرض الواقعي من صورة واحدة. بالنظر إلى صورة فوتوغرافية واحدة، تقوم SHARP بتراجع معلمات التمثيل الغاوسي ثلاثي الأبعاد للمشهد المصور. ويتم ذلك في أقل من ثانية على وحدة معالجة الرسومات القياسية عبر تمرير تغذية أمامي واحد عبر شبكة عصبية. يمكن بعد ذلك عرض التمثيل الغوسي ثلاثي الأبعاد الذي تنتجه SHARP في الوقت الفعلي، مما ينتج عنه صور واقعية عالية الدقة للمناظر القريبة. التمثيل متري، بمقياس مطلق، يدعم حركات الكاميرا المترية. توضح النتائج التجريبية أن SHARP يقدم تعميمًا قويًا بدون إطلاق عبر مجموعات البيانات. إنه يضع حالة جديدة من التقدم في مجموعات بيانات متعددة، مما يقلل LPIPS بنسبة 25-34% وDISTS بنسبة 21-43% مقابل أفضل نموذج سابق، مع تقليل وقت التوليف بمقدار ثلاثة أوامر من حيث الحجم.

باختصار، يتنبأ النموذج بتمثيل ثلاثي الأبعاد للمشهد، والذي يمكن تقديمه من وجهات نظر قريبة.

إن 3D Gaussian هو في الأساس نقطة صغيرة غامضة من اللون والضوء، موضوعة في الفضاء. عندما يتم دمج الملايين من هذه النقط، يمكنهم إعادة إنشاء مشهد ثلاثي الأبعاد يبدو دقيقًا من وجهة النظر المحددة تلك.

لإنشاء هذا النوع من التمثيل ثلاثي الأبعاد، تتطلب معظم أساليب الرش الغاوسي عشرات أو حتى مئات الصور لنفس المشهد، والتي تم التقاطها من وجهات نظر مختلفة. على النقيض من ذلك، فإن نموذج SHARP من Apple قادر على التنبؤ بتمثيل مشهد غاوسي ثلاثي الأبعاد بالكامل من صورة واحدة في تمريرة أمامية واحدة للشبكة العصبية.

ولتحقيق ذلك، قامت Apple بتدريب SHARP على كميات كبيرة من البيانات الاصطناعية وبيانات العالم الحقيقي، مما مكنها من تعلم الأنماط الشائعة للعمق والهندسة عبر مشاهد متعددة.

ونتيجة لذلك، عند إعطاء صورة جديدة، يقوم النموذج بتقدير العمق وتحسينه باستخدام ما تعلمه، ثم يتنبأ بموضع ومظهر الملايين من أجهزة Gaussians ثلاثية الأبعاد في تمريرة واحدة.

يتيح ذلك لـ SHARP إعادة بناء مشهد ثلاثي الأبعاد معقول دون الحاجة إلى صور متعددة أو تحسين بطيء لكل مشهد.

ومع ذلك، هناك مقايضة. تعرض SHARP وجهات النظر القريبة بدقة، بدلاً من تجميع الأجزاء غير المرئية تمامًا من المشهد. وهذا يعني أنه لا يمكن للمستخدمين الابتعاد كثيرًا عن النقطة المميزة حيث تم التقاط الصورة، نظرًا لأن النموذج لا يقوم بتجميع الأجزاء غير المرئية تمامًا من المشهد.

هذه هي الطريقة التي تحافظ بها Apple على النموذج سريعًا بما يكفي لتوليد النتيجة في أقل من ثانية، بالإضافة إلى ثباته بدرجة كافية لإنشاء نتيجة أكثر قابلية للتصديق. وهذه مقارنة بين SHARP وGen3C وهي من أقوى الطرق السابقة:

ربما يكون الأمر الأكثر إثارة للاهتمام من الوثوق بآبل في كلامها هو تجربة ذلك بنفسك.. وتحقيقًا لهذه الغاية، لقد أتاحت شركة Apple SHARP على GitHub، وكان المستخدمون يشاركون نتائجهم الخاصة مع اختباراتهم.

فيما يلي بعض المنشورات التي شاركها مستخدمو X خلال الأيام القليلة الماضية:

ربما لاحظت أن المنشور الأخير هو في الواقع مقطع فيديو. وهذا يتجاوز النطاق الأصلي لشركة Apple لـ SHARP، ويظهر طرقًا أخرى يمكن من خلالها توسيع هذا النموذج، أو على الأقل نهجه الأساسي، في العمل المستقبلي.

إذا قررت تجربة SHARP، شاركنا النتائج في التعليقات أدناه.

عروض الإكسسوارات على أمازون

FTC: نحن نستخدم الروابط التابعة التلقائية لكسب الدخل. أكثر.



■ مصدر الخبر الأصلي

نشر لأول مرة على: 9to5mac.com

تاريخ النشر: 2025-12-17 23:22:00

الكاتب: Marcus Mendes

تنويه من موقع “yalebnan.org”:

تم جلب هذا المحتوى بشكل آلي من المصدر:
9to5mac.com
بتاريخ: 2025-12-17 23:22:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “yalebnan.org”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.

ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.

اظهر المزيد

مقالات ذات صلة

زر الذهاب إلى الأعلى