الذكاء الصُّنعي يرسم تخيلًا لوجهك بناء على سماع صوتك فقط!
إنستغرام >>>> علوم هندسية
speech- face
يُغذَّى بها فرعان من الأنموذج المقترح؛ إذ تُشفَّر الصور باستخدام أنموذج مسبق التدريب
pre- trained model
لتعرُّف الوجوه، ثم وبالموازاة مع عملية ترميز الصورة، يُحوَّل الصوت من الشكل الموجي إلى الطيفي، الذي يُشكِّل الدخل لمُرمِّز الأصوات
Voice Encoder
تُحوِّل الشكل الطيفي للموجة الصوتية إلى سمات الوجه المُتخيَّل، ويُغذِّي وحدة فك ترميز الوجه لإعادة بناء صورة الوجه. بعد الحصول على ترميز الصوت والصورة، تُجمع المعطيات وتُحلَّل ويُفَك ترميزها بواسطة وحدة فك ترميز الوجه
Face Decoder
لبناء الوجه من شكله المبدئي. إن نهج التدريب المقترح ذاتي الإشراف
self- supervised
إذ تتعلم الآلة بناء وجه المُتحدِّث عن طريق تحديث سمات الوجه المُتخيَّل في كل مرة يُدخل فيها مقاطع فيديو إلى الأنموذج، ليجري ذلك مزامنةً مع صوت الشخص في أثناء الحديث.
حرر من مقالنا: هنا