يجمع نموذج Apple بين فهم الرؤية وتوليد الصور
نشر باحثو Apple دراسة حول Manzano، وهو نموذج متعدد الوسائط يجمع بين الفهم البصري وتوليد النص إلى صورة، مع تقليل الأداء ومقايضات الجودة بشكل كبير في التطبيقات الحالية. وهنا التفاصيل.
نهج مثير للاهتمام لمشكلة حديثة
في دراسة بعنوان مانزانو: نموذج موحد متعدد الوسائط بسيط وقابل للتطوير مزود برمز رؤية هجين، قام فريق مكون من حوالي 30 باحثًا من Apple بتفصيل نهج موحد جديد يتيح فهم الصور وإنشاء تحويل النص إلى صورة في نموذج واحد متعدد الوسائط.
وهذا أمر مهم لأن النماذج المتعددة الوسائط الموحدة الحالية التي تدعم توليد الصور غالبا ما تواجه مقايضات: فهي إما تضحي بالفهم البصري لإعطاء الأولوية لتوليد الصور الانحدارية أو تعطي الأولوية للفهم، والتضحية بالإخلاص التوليدي. وبعبارة أخرى، فإنهم غالبا ما يكافحون من أجل التفوق في كليهما في وقت واحد.
وإليك سبب حدوث ذلك، وفقًا للباحثين:
أحد الأسباب الرئيسية لهذه الفجوة هو الطبيعة المتضاربة للترميز المرئي. عادةً ما يفضل إنشاء الانحدار التلقائي الرموز المميزة للصور المنفصلة بينما يستفيد الفهم عادةً من عمليات التضمين المستمرة. تتبنى العديد من النماذج إستراتيجية الرمز المميز المزدوج، وذلك باستخدام برنامج التشفير الدلالي للحصول على ميزات غنية ومستمرة بينما يقوم برنامج التشفير الكمي المنفصل مثل VQ-VAE بمعالجة عملية الإنشاء. ومع ذلك، فإن هذا يفرض على نموذج اللغة معالجة نوعين مختلفين من الرموز المميزة للصورة، أحدهما من الفضاء الدلالي عالي المستوى مقابل الآخر من الفضاء المكاني منخفض المستوى، مما يؤدي إلى تعارض كبير في المهام. في حين أن بعض الحلول مثل Mixture-of-Transformers (MoT) يمكن أن تخفف من ذلك من خلال تخصيص مسارات منفصلة لكل مهمة، إلا أنها غير فعالة من حيث المعلمات وغالبًا ما تكون غير متوافقة مع بنيات Mixture-of-Experts (MoE) الحديثة.
يتجاوز خط عمل بديل هذا التعارض عن طريق تجميد LLM متعدد الوسائط مُدرب مسبقًا وتوصيله بجهاز فك تشفير الانتشار. وفي حين أن هذا يحافظ على القدرة على الفهم، فإنه يفصل بين التوليد، ويفقد المنافع المتبادلة المحتملة ويحد من المكاسب المحتملة للتوليد من توسيع نطاق ماجستير إدارة الأعمال متعدد الوسائط.
ببساطة، البنى متعددة الوسائط الحالية ليست مناسبة تمامًا لأداء كلتا المهمتين في وقت واحد لأنها تعتمد على تمثيلات بصرية متضاربة للفهم والتوليد، والتي يكافح نموذج اللغة نفسه للتوفيق بينها.
وهنا يأتي دور مانزانو. فهو يوحد مهام الفهم والتوليد باستخدام برنامج الانحدار الذاتي LLM للتنبؤ بما يجب أن تحتويه الصورة دلاليًا، ثم يمرر هذه التنبؤات إلى وحدة فك تشفير الانتشار (عملية تقليل الضوضاء لقد شرحنا هنا) الذي يعرض وحدات البكسل الفعلية.
وكما يوضح الباحثون، تجمع مانزانو بين ثلاثة مكونات في هندستها المعمارية:
- رمز رؤية هجين ينتج تمثيلات مرئية مستمرة ومنفصلة؛
- وحدة فك ترميز LLM التي تقبل الرموز النصية و/أو تضمينات الصور المستمرة وتتنبأ بشكل تنازلي تلقائي بالصورة المنفصلة التالية أو الرموز النصية من مفردات مشتركة؛
- وحدة فك ترميز الصور التي تعرض وحدات بكسل الصورة من الرموز المميزة للصورة المتوقعة
ونتيجة لهذا النهج، “يتعامل مانزانو مع المطالبات غير البديهية التي تتحدى الفيزياء (على سبيل المثال، “الطائر يطير أسفل الفيل”) بشكل مشابه لـGPT-4o وNano Banana”، كما يقول الباحثون.
لاحظ الباحثون أيضًا أنه في معايير متعددة، “تحقق نماذج Manzano 3B و30B أداءً متفوقًا أو تنافسيًا مقارنةً ببرامج LLM الموحدة متعددة الوسائط الأخرى من SOTA.”
اختبر باحثو Apple مانزانو عبر عدة أحجام، بدءًا من نموذج ذو معلمة 300M وحتى إصدار ذو معلمة 30B. وقد سمح لهم ذلك بتقييم مدى تحسن أداء الوسائط المتعددة الموحد مع توسع النموذج:
إليك مقارنة أخرى بين مانزانو والنماذج الحديثة الأخرى، بما في ذلك Nano Banana من Google وGPT-4o من OpenAI:
أخيرًا، يؤدي Manzano أيضًا أداءً جيدًا في مهام تحرير الصور، بما في ذلك التحرير الموجه بالتعليمات، ونقل النمط، والرسم الداخلي/الرسم الخارجي، وتقدير العمق.
لقراءة الدراسة الكاملة، مع تفاصيل تقنية متعمقة فيما يتعلق بتدريب Manzano على الرموز المميزة الهجينة، وتصميم وحدة فك تشفير الانتشار، وتجارب القياس، والتقييمات البشرية، اتبع هذا الرابط.
وإذا كنت مهتمًا بهذا الموضوع، فتأكد من الاطلاع عليه الشرح الخاص بنا على UniGen، نموذج صورة واعد آخر قام باحثو Apple بتفصيله مؤخرًا. على الرغم من عدم توفر أي من هذه النماذج بسهولة على أجهزة Apple، إلا أنها تشير إلى العمل المستمر لتحقيق نتائج أقوى لإنشاء صور الطرف الأول في Image Playground وما بعده.
عروض الإكسسوارات على أمازون
FTC: نحن نستخدم الروابط التابعة التلقائية لكسب الدخل. أكثر.
نشر لأول مرة على: 9to5mac.com
تاريخ النشر: 2026-01-14 22:44:00
الكاتب: Marcus Mendes
تنويه من موقع “yalebnan.org”:
تم جلب هذا المحتوى بشكل آلي من المصدر:
9to5mac.com
بتاريخ: 2026-01-14 22:44:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “yalebnan.org”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.
ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.













