تم إنشاء روبوت يكرر تعبيرات الوجه البشري في الوقت الفعلي بـ 11 لغة فيديو

كشف علماء من جامعة كولومبيا عن تقنية جديدة تسمح للروبوتات بمزامنة حركات الشفاه مع التسجيلات الصوتية للكلام، مما يخلق تعبيرات وجه أكثر طبيعية. ونشرت نتائج الدراسة في المجلة الروبوتات العلمية.
النظام قادر على العمل بعدة لغات، بما في ذلك الفرنسية والصينية والعربية، حتى لو لم يتم استخدامها لتدريب النموذج. وفقا للباحثين ، فهو يتفوق على خمس طرق موجودة في إعادة إنتاج حركات الفم بدقة مقارنة بمقاطع الفيديو المرجعية.
ويشير المؤلفون إلى أن “النظام المطور كان قادراً أيضاً على توليد حركات شفاه واقعية بـ 11 لغة غير الإنجليزية مع هياكل صوتية مختلفة”.
ويمكن أن يكون استخدام التكنولوجيا مفيدًا بشكل خاص في تعليم ورعاية كبار السن، حيث أكد الفريق على أهمية استخدام النظام بعناية.
حركة الشفاه في الوقت الحقيقي
عادة ما تتفاعل الروبوتات الحديثة مع تصرفات الإنسان بعد الانتهاء منها، وهو ما يبدو غير طبيعي. ويتنبأ النظام الجديد بتعبيرات وجه الشخص الآخر، مما يخلق تفاعلاً أكثر ديناميكية وواقعية عاطفياً.
استنادًا إلى منصة إيفا، تم إنشاء روبوت إيمو المجهز بـ 26 مشغلًا لحركات الوجه (تمتلك إيفا 10). تعمل المغناطيسات الموجودة في وجه Emo على تشويه الجلد القابل للاستبدال للتحكم الدقيق، بينما تلتقط كاميرات RGB المدمجة حركات العين والوجه للتنبؤ بالعواطف في الوقت الفعلي. يستخدم الروبوت شبكتين عصبيتين: إحداهما تتحكم في تعابير وجهها، والأخرى تتنبأ بتعبيرات وجه الإنسان.
هناك 23 محركًا مسؤولة عن الوجه، وثلاثة محركات أخرى لحركات الرقبة، مما يسمح لـ Emo بمزامنة التعبيرات مع المحاور على الفور تقريبًا.
كيف يتعلم الروبوت التنبؤ بتعبيرات الوجه
يتنبأ النموذج بالتعبيرات بناءً على الحد الأدنى من تغييرات الوجه، ويتم تدريبه على 970 مقطع فيديو من 45 مشاركًا. لتقييم ديناميكيات تعبيرات الوجه، يتم استخدام المسافة الإقليدية بين نقاط الوجه الرئيسية، ويتم تحديد ذروة التنشيط بواسطة الإطار الذي يتمتع بأكبر تسارع للتغييرات.
يعمل النظام بمعدل 650 إطارًا في الثانية، ويقوم النموذج العكسي بتشغيل المحركات بسرعة 8000 إطارًا في الثانية على جهاز MacBook Pro 2019، مما يسمح للروبوت بتقديم التعبيرات في 0.002 ثانية فقط. وبالمقارنة، فإن تعبيرات الوجه البشري تدوم حوالي 0.841 ± 0.713 ثانية، مما يترك متسعًا من الوقت للأداء المتزامن.
أظهر الاختبار أن النموذج تنبأ بشكل صحيح بتنشيط الحركة بنسبة 72.2% من الوقت، مع قيمة تنبؤية إيجابية بنسبة 80.5%، مما يوفر دقة عالية بين المشاركين.
التقليد وحده لا يضمن التفاعل الاجتماعي الهادف، لكن التنبؤ بتعبيرات الوجه يعد خطوة أساسية نحو تطوير الذكاء العاطفي لدى الروبوتات. ووفقا للمطورين، فإن التكنولوجيا الجديدة تفتح آفاقا لمزيد من التفاعل الطبيعي في التعلم والرعاية الصحية والروبوتات الاجتماعية.
تنويه من موقع “yalebnan.org”:
تم جلب هذا المحتوى بشكل آلي من المصدر:
naukatv.ru
بتاريخ: 2026-01-15 13:05:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “yalebnan.org”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.
ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.



