المعلوماتية > الذكاء الصنعي

التّعلّم العميق يُعيد ابتكار أجهزة المساعدة على السّمع

استمع على ساوندكلاود 🎧

إحدى المشاكلُ الّتي تواجه الأشخاص ضعيفي السَّمعِ هي صعوبةُ الانخراطِ في محادثةٍ ما، وخاصَّةً إذا ما تحدَّثَ أكثرُ من شخصٍ في الوقتِ نفسه. وحتّى مع استخدامِهم أجهزةَ المساعدةِ على السَّمعِ، تبقى معاناتُهم الكبرى هي التَّمييزَ بين الأصواتِ الصَّادرةِ في آنٍ واحدٍ.

وتُمثِّلُ هذه المعاناةُ صعوبةً لشركاتِ تصنيعِ أجهزةِ المساعدةِ على السَّمعِ أيضاً. فبشكلٍ طبيعيٍّ، يمكن لنظام السَّمعِ البشريِّ انتقاءَ الأصواتِ حتّى في الأماكنِ المزدحمةِ، ولكنَّ المشكلةَ تكمنُ في إنشاءِ جهازِ مساعدةٍ على السَّمعِ قادرٍ على أن يحاكي هذه القدرةَ البشريّةَ الّتي حيَّرت العديدَ من أخصائيّي تحليلِ الإشاراتِ (Signal Processing Specialists)، وخبراءِ الذّكاءِ الصُّنعيِّ، وعلماءِ السَّمعِ (Audiologists) لعقودٍ طويلةٍ. وتحدَّث عالِمُ الوعي (cognitive scientist) البريطانيِّ، كولن تشيري Colin Cherry، في عام 1953 عن هذه المشكلةِ، كما أطلقَ لقباً عليها، حيث أسماها بـ"مشكلةِ حفلةِ الكوكتيلِ cocktail party problem". والّتي هي الانتباهُ اللّاواعي لصوتٍ أو كلامٍ مألوفٍ أثناءَ التّواجدِ في بيئةٍ صاخبةٍ، كأن يُذكَر اسم الشَّخصِ وهو ضمنَ حفلةٍ صاخبةٍ، فينتبه هذا الشَّخصُ الّذي ذُكِرَ اسمه رغمَ كلِّ الضَّجيج.

في عصرنا الحالي، يَستخدم أقلُّ من 25 بالمئةِ من الأشخاصِ ضعيفي السَّمعِ جهازاً مُساعداً على السَّمعِ. وذلك بسببِ كونِ هذه الأجهزةِ غيرَ قادرةٍ على التَّمييزِ بينَ الأصواتِ الصَّادرةِ في الوقتِ نفسه، كصوتِ شخصٍ يتحدَّثُ وصوتِ سيّارةٍ عابرةٍ في نفسِ الوقتِ. حيثُ تقومُ الأجهزةُ برفعِ درجتَي الصَّوتَينِ مُشَكِّلةً ضجَّةً غيرَ مفهومةٍ.

ومن أجلِ حلِّ هذه المشكلة وتقديم تجربةٍ أفضلَ لمستخدمي الأجهزة، قام مؤخراً فريقٌ من مختبر جامعة أوهايو بتطبيقِ تقنيّةِ تَعلُّمِ الآلةِ (machine learning) المَبنيَّةِ على أساسِ الشَّبكاتِ العصبونيِّةِ(deep neural networks) للقيامِ بمهمَّةِ فصلِ الأصواتِ عن بعضِها. حيثُ قامَ الفريقُ بتجريبِ نُسَخٍ متعدِّدةٍ من فلترٍ رقميٍّ والّذي أصبحَ قادراً على تضخيمِ الأصواتِ بالإضافةِ إلى عزلِ الكلامِ عن أصواتِ الضَّجيجِ المحيطةِ وتعديلِ الصَّوتِ أوتوماتيكيّاً كلاً على حدا.

يؤمن هؤلاء العلماءُ بأنَّ هذه المحاولةَ من الممكنِ أن تجعلَ فَهمَ الأشخاصِ ضعيفي السَّمعِ مساوياً، أو حتّى زائداً، عن الأشخاصِ طبيعيّي السَّمعِ في نهايةِ المطافِ. في الحقيقة، أحدُ النَّماذجِ القديمةِ زادت من قدرةِ بعضِ المرضى على فهمِ الكلماتِ حتّى في أماكنِ الضّجيجِ، حيث كانت هذه الزّيادةَ من الـ ـ10 للـ ـ90 بالمئة. ولأنَّ فهمَ الجملِ لا يعتمدُ دائماً على فهمِ كلِّ كلمةٍ من الجملة، سيُشكِّلُ هذا الاختراعُ الفرقَ بينَ فهمِ الجملةِ أو عدمِ فهمِها.

قدرةُ البشرِ على السَّمعِ ستزدادُ سوءاً إذا لم يتمّ تطوير تقنيّاتٍ جديدةٍ تساعد على السَّمعِ. فطبقاً لمنظَّمةِ الصّحةِ العالميَّةِ، يوجدُ حوالي الـ ـ15 بالمئةِ من البالغين، أي ما يقاربُ الـ 766 مليونَ شخصٍ يعانون من فقدان السَّمعِ. وهذا الرَّقم آخذٌ بالازديادِ بسببِ زيادةِ التّعدادِ البشريِّ وزيادةِ نسبةِ كبارِ السِّنِّ بالتّالي. ويمكننا القولُ بأنَّ مجالَ هذه التّقنيّة ليس محصوراً فقط في المجالِ الطُّبيِّ، حيث يُمكنُ للمطوِّرينَ استعمالَ هذه التّقنيَّةِ لتحسينِ خدمةِ التَّعرُّفِ على الكلامِ الخاصَّةِ بالهواتفِ المحمولةِ. ويمكن للمدراءِ استخدامها لمساعدةِ العُمّالِ في المعاملِ الصَّاخبةِ، كما يمكنُ للجيوش استخدامها لمساعدةِ الجنودِ على سماعِ بعضهم البعض في مناطق المعارك ذات الضّجيجِ العالي.

جميعُ هذه الأشياءُ هي موادٌ أوليّةٌ لسوقٍ مستقبليٍّ أكبرَ. فمن المتوقَّعِ أن ينمو سوقُ تقنيّةُ المساعدةِ على السَّمعِ بمقدارِ 6 بالمئة في كلِّ سنةٍ ابتداءً من عام 2020، وذلكَ حسبَ إحصائيّةٍ قامت بها شركةُ البحثِ التّجاريِّ MarketsandMarkets في بيون Pune، الهند. ومع هذا، فإنَّ إرضاءَ جميعِ المستخدمين، يعني إيجادُ حلٍّ لمشكلةِ "حفلةِ الكوكتيل cocktail party problem". ففي النّهايةِ، الشّبكاتُ العصبونيّةُ العميقةُ (deep neural networks) تشير إلينا للتَّقدُّمِ نحوَ الأمام.

على مدة عقودٍ، حاولَ مهندسو الكمبيوتر والكهرباء عزلَ الكلامِ عن طريقِ تقنيّةِ معالجةِ الإشارةِ (signal processing)، ولكنَّهم باؤوا بالفشل. ويُعتَبَر استخدامُ كاشفِ النّشاطِ الصّوتيِّ (voice-activity detector) للتَّعرُّفِ على الفواصلِ (gaps) بين الكلماتِ من أشهرِ الطُّرُقِ المُستخدَمَةِ. ففي هذه التّقنيّة، يعتبر النّظامُ أنَّ هذهِ الفواصلَ (gaps) بينَ الكلماتِ كالـ"ضجيجِ". وبعدَ ذلكَ، تقومُ خوارزميّةٌ بحذفِ الضّجيجِ من التّسجيلِ الأصليِّ، مُخلِّفَةً كلاماً خالياً من "الضّجيجِ".

ولكن لسوءِ الحظِّ، هذه التّقنيّةُ، والمعروفةُ بالحذفِ الطّيفيِّ (spectral subtraction)، سُمعتُها سيّئةً بسببِ حذفِها كلاماً أكثرَ من اللّازم أو عدمِ حذفِها للضّجيجِ بشكلٍ جيّدٍ. وغالباً تكونُ النّتيجةُ بقايا غيرَ سارَّةٍ من التَّسجيلِ الصَّوتيِّ، المدعوَّةَ بـ"الضّجيجِ الموسيقيِّ (musical noise)"، والّتي تجعلُ المستَمِعَ يظنُّ كما لو أنَّ الصَّوتَ تمَّ تسجيلُهُ تحتَ الماءِ. هذه المشاكلُ عسيرةٌ كونها لم تُحَلُّ على الرَّغمِ من سنواتِ التّطويرِ الطّويلةِ. ويمكنُنا القولُ بأنَّ تقنيّةَ الحذفِ الطّيفيِّ (spectral subtraction) لا تُفيدُ المستخدمينَ كثيراً في مجالِ التَّعرُّفِ على الكلامِ في الأجواءِ الصّاخبةِ.

لقد أدركَ العلماءُ بأنَّ عليهم أن يواجهوا المُشكلةَ بمنحىً آخرَ، فكانت البدايةُ عبرَ استخدامِهم نظريّةً طرحها عالمُ النَّفس ألبيرت بريغمان Albert Bregman، في جامعة مكغيل McGill في مونتريال، كندا في عام 1990، والّذي ناقشَ بأنَّ جهازَ السَّمعِ البشريِّ ينظِّمُ الصَّوتَ في تيّاراتٍ (streams) مختلفةٍ. حيثُ يُمثِّلُ كلُّ تيّارٍ (stream) للأصواتِ النّاتجةِ من مصدرٍ واحدٍ، كصوتٍ صديقٍ يتحدَّثُ قريباً منا. ويتميَّزُ كلُّ تيّارٍ (stream) عن الآخرِ بالنّبرةِ (pitch)، ودرجةِ الصّوتِ (volume)، والاتّجاهِ الّذي أتى منه.

تُشكِّلُ صافرةُ سيّارةِ الشَّرطة، وصوتُ تحدُّثِ الأشخاصِ، وصوتُ نباحِ الكلبِ ثلاثَ تيّاراتٍ صوتيّةٍ. وتُشكِّلُ هذه التّيّاراتُ مجتمعةً ما يُسمّى بالمشهدِ السَّمعيِّ (auditory scene).

وتشكِّلُ التّيّاراتُ (streams) مجتمعةً، كصوتِ تحدُّثِ ذاك الصَّديقِ أثناءَ إحدى المبارياتِ الصَّاخبةِ، ما يسمِّيه بريغمان Bregman بـ"المشهدِ السَّمعيِّ auditory scene". فإذا تشاركت الأصواتُ نفسَ الحزمةِ التّردُّديّةِ في نفسِ الوقتِ، فإنَّ الصَّوتَ الأعلى في هذا المشهدِ سيتغلَّبُ على باقي الأصواتِ، والّذي هو مبدأٌ مفيدٌ يُدعى بـ"الإخفاءِ السَّمعيِّ auditory masking". فعلى سبيلِ المثالِ، من الممكنِ ألّا نلاحظَ صوتَ دقَّاتِ ساعةٍ في آخرِ الغرفةِ إذا كانتِ السَّماءُ تُمطر وتُسبِّبُ صوتَ نقرٍ على السَّقفِ. هذا المبدأ، بالإضافةِ للعديدِ غيره، يتمُّ تطبيقُهم في ملفَّاتِ الـ mp3 وذلكَ لتصغيرِ حجمِ الملفَّاتِ بنسبةِ عُشْرِ الصَّوتِ الأصليِّ عن طريقِ إخفاءِ الأصواتِ (صوتُ دقَّاتِ السَّاعةِ في حالتِنا هذه) من دونِ أن يُلاحظَ المُستمعُ هذا الإخفاء.

واستناداً على عملِ بريغمان Bregman، فَكَّر العلماءُ في إمكانيةِ صُنعِ فلترٍ لتحديدِ ما إذا كان أحدُ التَّيَّاراتِ (streams) قادراً على الهيمنةِ على باقي الأصواتِ في لحظةٍ مُحدَّدةٍ وضمنَ تردُّدٍ مُعيَّنٍ. ويُقسِّمُ علماءُ النَّفسِ المسموعيِّ (Psychoacousticians)، والّذينَ يدرسونَ الإدراكَ الصَّوتيَّ، متوسّطَ نطاقِ السَّمعِ البشريِّ إلى ما يُقاربُ العشرينَ نطاقاً، ابتداءً بالـ 20 هيرتز وانتهاءً بالـ 20،000 هيرتز. لقد أرادَ العُلماءُ المشرفونَ على التّجربةِ أن يصنعوا فلتراً يُخبرهم عمّا إذا كانَ أحد التّيّاراتِ (streams) الصَّوتيّةِ الحاوي على كلامٍ أو ضجَّةٍ أقوى من باقي الأصواتِ ضمنَ هذه النّطاقاتِ، وذلكَ كلَّهُ كخطوةٍ أولى لفصلِ الصَّوتَين عن بعضهم.

وكان مُختَبَرُ جامعة أوهايو هو السَّبّاقُ في صُنعِ هكذا فلتر، والّذي كان قادراً على تسميةِ التّيّاراتِ (streams) المُهَيْمَنِ عليها سواءً من قبل الكلامِ أو الضَّجيجِ. وباستخدامِ هذا الفلتر، سيتمكّنُ العلماءُ من تطويرِ برنامجِ تعلُّمِ الآلةِ (machine learning) قادرٍ على أن يفصلَ الكلامَ عن باقي الأصواتِ استناداً على بعضِ الخصائصِ المميّزةِ، مثل المدى (amplitude) (جَهارةُ الصَّوتِ)، البنيةُ الموسيقيّةُ (harmonic structure) (ترتيبُ النَّغماتِ بشكلٍ خاصٍّ)، وتوقيتُ البدايةِ (onset) (عندما يبدأ صوتٌ معيّنٌ بوقتٍ قريبٍ من باقي الأصواتِ).

وتمَّ تسميةُ هذا الفلتر بـ"القناعِ الثُّنائي المثاليّ ideal binary mask"، أي هو فلترٌ يقومُ بتصنيفِ الضَّجيجِ والكلامِ ضمن مناطقَ صوتيّةٍ تُدعى بوحداتِ التّردُّدِ الزَّمنيّةِ (time-frequency units)، حيث يعيَّنُ لكلٍّ منهما فاصلةٌ محدَّدةٌ ضمنَ تردُّدٍ مُحدَّدٍ. ومن ثمَّ يُحلِّلُ الفلترُ كلَّ وحدةِ تردُّدٍ زمنيّةٍ (time-frequency unit) مرتبطةٍ بوحدةٍ من الكلامِ الصَّاخبِ ويُرقِّمُ كلَّ واحدةٍ كـ 0 أو1. فهو يُسجِّلُ 1 إذا كانَ الصَّوتُ "الهدفُ"(وبحالتنا هذه هو الكلام) أعلى من الضَّجيجِ، ويُسجِّلُ 0 إذا كانَ الضَّجيجُ أعلى من الكلام. فتكونُ النّتيجةُ مجموعةً من الـ 1 والـ 0 المُمَثِّلَةِ لدرجةِ هيمنةِ الكلامِ أو الضَّجيجِ ضمنَ العيّنةِ. ومن بعدِ هذا، يقومُ الفلترُ بحذفِ جميعِ الوحداتِ المُرقَّمَةِ بـ 0 ويُعيدُ تجميعَ الكلامِ من الوحداتِ المؤلَّفَةِ من 1. ولإعادةِ صياغةِ جُملةٍ مَفهومةٍ من الكلامِ الصَّاخبِ، يجبُ أن يكونَ هناك نسبة محدَّدة (أو أصغريّة) من الوحدات المرقَّمة بـ 1 مقارنةً مع الوحداتِ المرقَّمة.

بدأت التّجربةُ الأولى لهذا القناعِ في مُختبَرِ بحوثِ القوّاتِ الجويّةِ الأمريكيّةِ في أوهايو، في عام 2006. وفي نفسِ الفترةِ الزّمنيّةِ تقريباً، قامَ فريقٌ من جامعةِ Syracuse في مدينةِ نيويورك بتقييم "القناعِ الثّنائيّ المثاليِّ ideal binary mask" بشكلٍ مُستقلٍّ عن فريقِ البحثِ الأساسيِّ. خلالَ هذه التَّجارب، قامَ هذا الفلترُ بمساعدةِ أشخاصٍ ضعيفي السَّمعِ ومستمعينَ طبيعيّي السّمعِ على فهمِ الجُمَلِ الملوَّثَةِ بالضَّجيجِ بشكلٍ أفضلَ.

بشكلٍ عامٍ، لقد قامَ العلماءُ بصناعةِ فلترِ كلامٍ ذا أداءٍ مُذهلٍ في المختبرِ، ولكن لسوءِ الحظِّ تمتَّعَ هذا الفلترُ بميزةٍ غيرِ واقعيّةٍ. فنظريّاً، قامَ العلماءُ بتزويدِ الفلترِ بعيّناتٍ من الكلامِ والضّجيجِ كلٍّ على حدا، ومن بعد هذا اختبروه باستخدامِ مزيجٍ من نفسِ العيّناتِ. ولكن بسبب تزويده بالإجاباتِ (ولهذا يُدعى بالمثالي)، كانَ الفلترُ قادراً على معرفةِ متّى يكونُ الكلامُ أعلى من الضّجيجِ الخلفيِّ. أمّا الفلترُ الحقيقيُّ عليه أن يُصفِّي الصَّوتَ اعتماداً على نفسِه كليّاً.

ومع هذا، فإنَّ حقيقةَ قيامُ "القناعِ الثّنائيّ المثاليّ ideal binary mask" بتحسينِ قُدرةِ التَّعرُّفِ على الكلامِ لكِلا الأشخاصِ ضعيفي السَّمعِ والأشخاصِ طبيعيّي السّمعِ كانَ له تأثيرٌ عميقٌ جداً. حيث أظهرَ القناعُ أنَّ تقنيّةَ التَّصنيفِ المُستخدَمَةِ، والّتي هي نوعٌ من التَّعلُّمِ تحت الإشراف (supervised learning)، بإمكانِها توظيفُ القناعِ كوسيلةٍ لفَصِلِ الكلامِ عن الضَّجيجِ. باستخدامِ التَّصنيفِ، يمكنُ للآلةِ أن تُقلِِّدَ طريقةَ تعلُّمِ البشرِ عمليّاً عن طريقِ القيامِ بالتّمارينِ، وتلقّي التّغذيةِ الرّاجعةِ (feedback)، ورسمِ وتذكُّرِ الدُّروسِ من خبرتِهِ الخاصّة. أساساً، هذه هي الطّريقةُ الّتي يتعلَّمُ بها البشرُ على سبيلِ المثالِ التّمييزَ بينَ التُّفَّاحِ والبرتقالِ منذُ الصِّغر.

في السّنين اللّاحقةِ، قامَ المختبر بأوّلِ تجربةِ تقريبِ "القناعِ الثّنائيّ المثاليّ ideal binary mask" باستخدامِ التّصنيف. وفي نفس الوقتِ تقريباً، قاموا أيضاً بتطويرِ مُصَنِّفِهِم الأصليّ. وقامت مجموعةٌ من جامعةِ Carnegie Mellon في مدينةِ بيتيرسبيرغ بابتكارِ طريقتهم الخاصّةِ باستخدامِ تعلُّمِ الآلةِ (machine learning) لتصنيفِ وحداتِ التَّردُّدِ الزَّمنيّةِ لسببٍ آخرَ، والّذي هو تحسينُ برنامجِ التَّعرُّفِ الآليِّ على الكلام. لاحقاً، استخدمت مجموعةٌ أخرى من جامعةِ تكساس في دالاس بقيادة Philipos Loizou طريقةَ تصنيفٍ مختلفةٍ. حيثُ أصبحت هذه الطّريقةُ الأولى من نوعِها في إظهارِ تحسيناتٍ في فهمِ الكلامِ للنّاس طبيعيّي السّمعِ وذلكَ اعتماداً على خصائصَ أُحاديَّةً فقط، مقارنةً بالخصائصِ الثُّنائيّةِ المُلتَقَطَةِ بالأذنينِ معاً.

وتقومُ فكرةُ التّقريبِ على خطوتين، حيث يقوم العلماءُ أوّلاً باستخدامِ القناعِ الثّنائيّ المثاليّ لمقارنةِ خرجِ الشّبكةِ العُصبونيّةِ مع خرجِ الفلترِ وذلكَ لتدريبِ الشّبكةِ في بيئةٍ مثاليّةٍ. ثانياً، يقومُ العلماءُ باستخدامِ الشّبكةِ المُدرَّبَةِ في البيئةِ المثاليّةِ لتدريب الفلترِ على العملِ في البيئاتِ غيرِ المثاليّةِ.

ولكنَّ منهجيَّةَ تعلُّمِ الآلةِ (machine learning) الأوّليِّ طبّقت تقنيّاتِ تصنيفٍ غيرِ قويّةٍ أو دقيقةٍ لمساعدةِ مرتدي أجهزةِ المُساعَدَةِ على السَّمعِ. حيثُ لم يستطع الفلترُ بَعْدُ التّعاملَ مع الخليطِ المُعقَّدِ وغيرِ المُتوقَّعِ من الضّجيجِ والكلامِ الّذي يحصلُ في العالَم. ولفعلِ هذا، نحنُ بحاجةٍ لشيءٍ أقوى.

وبما أنَّ العلماءَ حصلوا على نتائجَ أوّليّةٍ واعدةٍ باستخدامِ خوارزميّةِ التّصنيفِ الأوّليّةِ، قرَّروا بأن يتّخذوا الخطوةَ المنطقيّةَ التّالية، والّتي هي تطويرُ النّظامِ وذلكَ لكي يستطيعَ العملُ في بيئاتِ العالَمِ الواقعيِّ الصّاخبةِ، وطبعاً من دونِ التّدريبِ على أيِّ أصواتٍ أو جُمَلٍ. حثَّ هذا التَّحدي العلماءَ على فعلِ شيءٍ لم يتمّ فعلُه من قبل، والّذي هو تصميمُ برنامجِ تعلُّمِ الآلةِ قادرٍ على تشغيلِ شبكةٍ عُصبونيّةٍ، بالإضافةِ لفصلِ الكلامِ عن الضّجيجِ وذلكَ بعد خضوعِهِ لفترةِ تدريبٍ مكثَّفَةٍ. حيثُ سيُستخدَمُ برنامجُ "القناعِ الثّنائيّ المثاليّ ideal binary mask" بغرضِ تدريبِ الشّبكةِ العصبونيّةِ. والخبرُ السَّارُ بأنَّ هذا البرنامج عَمِل بالشَّكلِ المطلوب. ففي دراسةٍ على 24 شخصاً، قامَ العلماءُ بإثباتِ أنَّ البرنامجَ قادرٌ على زيادةِ فهمِ النَّاسِ ضعيفي السَّمعِ بنسبةِ 50 بالمئة.

بشكلٍ أساسيٍّ، الشَّبكةُ العُصبونيّةُ هي نظامٌ برمجيٌّ مبنيٌّ من عناصرَ بسيطةٍ نسبيّاً قادرةٍ على الوصولِ لدرجاتٍ مُعقَّدةٍ من التَّحليلِ عن طريقِ عملِها معاً. (تمَّ تشكيلُ بنيةِ النِّظامِ تقريباً على طريقةِ عملِ الخلايا العصبيّةِ وشبكاتِها في الدّماغِ)، فعندَ تقديمِ معلوماتٍ جديدةٍ لها، تقومُ الخلايا العُصبونيّة، كما الحالُ عندَ البشرِ، بالتَّعلُّمِ عن طريقِ تعديلِ قيمةِ الأوزانِ بينها.

وتوجَدُ الخلايا العُصبونيّةُ بأشكالٍ وأحجامٍ مُتعدِّدَةٍ وبدرجاتٍ مختلفةٍ من التَّعقيدِ. وتُعرَفُ الشَّبكاتُ العُصبونيّةُ العميقةُ باحتوائها على طبقَتي معالجةٍ خفيّةٍ، حيثُ تكونُ غيرَ متّصلةٍ مباشرةً بمدخلِ أو مخرجِ النّظام. وكلُّ طبقةٍ مخفيّةٍ تُحسِّنُ النّتائجَ المُسلمُّ فيها من الطّبقاتِ السّابقةِ، مُدقَّقَةُ المقطعِ استناداً على المعلوماتِ السَّابقةِ.

على سبيلِ المثالِ، إذا ما افترضنا بأنَّ لدينا برنامجاً مُصمَّماً للتَّعرُّفِ على توقيعِ الزَّبون، فإنَّه سيقومُ أوّلاً بمقارنةِ التّوقيعِ المُدخَل مع عيّنةٍ موجودةٍ سابقاً في قاعدةِ بياناتِ التّدريب. ولكن مع هذا، فإنّ البرنامجَ يَعلَمُ أصلاً بأنَّ التَّوقيعَ المُدخَلَ ليسَ من الضَّروري أن يُطابقَ التّوقيعَ الموجودَ سابقاً بدقّةٍ. شرائحُ أخرى من الممكنِ أن تُحدِّدَ إذا ما كانَ التَّوقيعَ المُدخَلَ يمتلكُ خصائصَ محدَّدَةً، غالباً ما تبقى ثابتةً في توقيعِ الفردِ، كزاويةِ انحرافِ الأحرفِ، أو عدمِ وضعِهِ للنّقطةِ فوقَ الحرفِ i مثلاً.

ولبناءِ الشَّبكةِ العصبونيّةِ العميقةِ (deep neural network)، بدأ العلماءُ بكتابةِ خوارزميّاتٍ لاستخراجِ خصائصَ تمكّنَهم من التّمييز بين الأصواتِ والضّجيجِ استناداً على تغيُّراتٍ مُشترَكةٍ في المدى (amplitude)، والتّردُّدِ (frequency)، والتّحولاتِ (modulations) في كلاهم.

وفعلاً، قامَ العلماءُ بتحديدِ عشراتِ الخصائصِ القادرةِ على مساعدةِ البرنامجِ التَّمييزَ بين الكلامِ والضّجيجِ إلى حدٍّ ما، كما قاموا باستخدامِ الـ 85 خاصيّةٍ جميعها لجعلِ الخوارزميّةِ بأفضلِ وضعٍ ممكنٍ. ومن بين إحدى أكثرِ الخصائصِ أهميّةً لديهم كانت التّردُّدُ وشدةُ الصّوتِ.

تالياً، قاموا بتدريبِ الشّبكةِ العُصبونيّةِ العميقةِ (deep neural network) ىاستخدامِ الخصائصِ الـ 85 للتّمييزِ بينَ الكلامِ والضَّجيجِ. حيثُ تمَّ هذا التّدريبُ على مرحلتين: الأولى كانت تعيينُ متغيّراتِ (parameters) البرنامج من خلالِ التَّعلُّمِ من دونِ إشرافٍ (unsupervised learning). هذا يعني بأنَّهم قاموا بتزويدِ البرنامجِ بأمثلةٍ عديدةٍ عن هذه الخصائصِ من أجلِ تجهيزه لأنواعِ الإشاراتِ الّتي سيتعامَلُ معها لاحقاً.

من بعد هذا، قاموا باستخدامِ عيّناتٍ من كلامٍ صاخبٍ والنّتائجِ المُطابقةِ لها من "القناعِ الثّنائيّ المثاليّ ideal binary mask" لإتمامِ المرحلةِ الثّانيةِ من التّدريبِ، والّتي هي التَّعلُّمُ تحتَ الإشرافِ supervised learning. بالتّحديدِ، كانت مجموعةُ الواحداتِ والأصفارِ الّتي تُشكِّلُ "القناعَ الثُّنائيَّ المثاليَّ ideal binary mask" ورقةَ إجاباتٍ استخدمها العلماءُ لاختبارِ وتحسينِ قدرةِ البرنامجِ على الفصلِ بين الصَّوتِ والضَّجيجِ. ولكلِّ عيّنةٍ، يقومُ البرنامجُ باستخراجِ مجموعةٍ من الخصائصِ من الكلامِ الصَّاخِبِ.

لاحقاً، وبعدَ تحليلِ هذهِ الخصائصِ (التّردُّدات، الشّدّة، إلخ) يقومُ الفلترُ بتصنيفٍ شَرطيٍّ (هل كانَ صوتاً؟ هل كانَ ضجيجاً؟) ومن بعدها يُقارنُ النّتائجَ مع النّتائجِ الّتي يمكنُ أن يحدِّدها "القناعُ الثُّنائيُّ المثاليُّ ideal binary mask" في الموقفِ نفسِه. وإذا كانت النّتائجُ مُختلفةً عن الواحداتِ والأصفارِ في "القناعِ الثُّنائيِّ المثاليِّ ideal binary mask"، كانوا يقومون بتعديلِ متغيّراتِ الشّبكةِ العصبونيّةِ طبقاً لهذا الاختلاف، وذلكَ من أجلِ أن تقومَ الشّبكةُ بإعطاءِ نتائجَ قريبةٍ من الواحداتِ والأصفارِ في "القناعِ الثُّنائيِّ المثاليِّ ideal binary mask" في المحاولةِ التّاليةِ.

وللقيامِ بهذه التّعديلاتِ، قام العلماء أولاً بحساب أخطاءِ الشّبكةِ العُصبونيّةِ المُقاسَةِ بالفّرقِ بين خرجِ "القناعِ الثُّنائيِّ المثاليِّ ideal binary mask"وخرجِ الشّريحةِ الأخيرةِ من الشّبكةِ العُصبونيّةِ، والمعروفةِ ايضاً بالطّبقةِ الخارجيّةِ. وحالما يتمُّ حسابُ الأخطاءِ، يتمُّ استخدامُها لتغييرِ قيمةِ أوزانِ اتّصالاتِ الشّبكةِ العصبونيّةِ وذلكَ من أجلِ أن يتمَّ استخدامُ التّصنيفِ مرّةً أخرى، حيث يتمُّ تخفيفُ الخطأ. حيثُ يتمُّ تدريبُ الشّبكةِ العصبونيّةِ من خلالِ إعادةِ هذه العمليّة آلاف المرّات.

واحدةٌ من التّحسيناتِ الّتي تمَّت إضافَتُها لاحقاً هي بناءُ شبكةٍ عُصبونيّةٍ عميقةٍ ثانيةٍ يتمُّ تغذيتُها من قِبَلِ الشّبكةِ الأولى وذلك من أجلِ إعطاءِ نتائجَ أفضلَ. فبينما كانت الشَّبكةُ العصبونيَّةُ الأولى مُصَمَّمَةً للتّركيزِ على تصنيفِ السّماتِ (attributes) ضمنَ وحدةِ التَّردُّدِ الزَّمنيِّ، كانت وظيفةُ الشَّبكةِ الثّانيةِ تفحُّصُ سماتِ الوحداتِ القريبةِ من وحدةٍ مُعيَّنةٍ. ولفهمِ هذه الفكرةِ أكثرَ، يمكننا التَّمعُّنُ في هذا المثالِ: إذا كانت الشّبكةُ الأولى تبحثُ عن منزلٍ للبيعِ، فتكونُ وظيفةُ الشَّبكةِ الثَّانيةِ التَّجوُّلَ في نفس الحي. وبمعنى آخر،تكونُ الشَّبكةُ الثَّانيةُ قد زوَّدت الأولى بمعلوماتٍ أكثرَ عن الكلام والضّجيج الموجودَين في المقطعِ الصَّوتيِّ. على سبيلِ المثالِ، يمكن لمقطعٍ لفظيٍّ الامتدادَ على أكثرِ من وحدةِ تَردُّدٍ زمنيّةٍ، بينما يمكنُ للضّجيجِ الخلفيِّ أن يتغيَّرَ فجأةً في وقتِ الحديث. وفي حالتِنا، وجودُ دلالاتٍ من سياقِ الكلامِ من الممكن أن تساعدَ البرنامجَ على فصلِ الكلامِ عن الضّجيجِ بنجاحٍ أكبرَ.

في نهايةِ التّدريبِ المشرف عليه، أثبتَ مُصَنِّف الشّبكة العصبونيّة العميقة (deep-neural-network) بأنّه أفضلُ بكثيرٍ من الطُّرق الأوّليّةِ المُتعلِّقَةِ بفصلِ الكلامِ عن الصَّوتِ. في الحقيقة، كانت هذه الخوارزميّةُ هي الأولى بتحقيقِ تحسيناتٍ كبيرةٍ في قدرةِ مُستخدمي أجهزةِ تحسين السَّمعِ لفهمِ الكلماتِ المُشوّشَةِ بالضّجيج.

ولتجريبها على البشرِ، طلبَ العلماءِ من 12 شخصاً ضعيفي السَّمعِ و12 آخرينَ طبيعيّي السَّمعِ الاستماعَ بالسّمّاعاتِ لعيّناتٍ من الجُمَلِ الصَّاخبةِ. كانت الجُمَلُ في أزواجٍ: حيث كان المقطع الأوّل يحتوي على كلامٍ وضجيجٍ في آنٍ واحدٍ، ومن بعدها العيّنةُ نفسها بعد أن تمَّت معالجتُها عن طريقِ البرنامجِ المُستند على الشّبكةِ العصبونيّةِ العميقةِ. أمّا عن طبيعةِ الجُمَلِ، فقد تمَّ تشويشها بنوعينِ من الضّجيجِ: الأوّلُ، صوتُ طنينٍ ثابتٍ. والثّاني، ثرثرةُ أشخاصٍ يتحدَّثونَ في نفسِ الوقتِ. صوتُ الطّنينِ كان شبيهاً بصوتِ برّادٍ يعمل، حيث تكون الموجّةُ الصّوتيّةُ متكرّرةً وشكلُ الطّيفِ التّردُّديِّ لا يتغيّرُ مع الوقت. أمّا عن كيفيّةِ صُنعهم لصوتِ الضّجيجِ الخلفيِّ، فقد قاموا بإضافةِ بعضِ كلامِ أربعةِ ذكور وأربعِ إناثٍ، وذلكَ من أجلِ تقليدِ حفلِ الكوكتيل.

وأظهرَ النَّاسُ في المجموعتين تحسُّناً كبيراً في قدرتهم على فهمِ الجُمَلِ وسطَ أصواتِ الضّجيجِ وذلكَ بعدَ أن تمَّت معالجةُ الجُمَلِ عن طريقِ البرنامجِ. بشكلٍ عامٍ، يستطيع الأشخاص المصابين بضعفِ السّمع تفسيرَ 29 بالمئة من الكلمات المشوّشة بالثّرثرةِ بدونِ استخدامِ البرنامجِ، أمّا بعد استخدامه، فأصبح بإمكانهم فهمُ ما يقارب الـ 84 بالمئة من الكلامِ بعد المعالجة. حيث أظهرت مجموعةً من الأشخاصِ تحسُّناً بفهمِ الكلماتِ من نسبة 10 بالمئة إلى نسبة 90 بالمئة بعد استخدام البرنامج. كما ظهرت مكاسبُ عديدةً لسيناريو الضّجيجِ الثّابتِ مع الأشخاصِ ضعيفي السَّمعِ، حيث أبدوا تحسُّنا من نسبة الـ 32 إلى 82 بالمئة.

سيكون حتّى عند الأشخاصِ ذوي السَّمع الطّبيعيّ قدرةً أفضلَ على فهمِ الجُمَلِ الصّاخبةِ، ممّا يعني أنَّ البرنامجَ سيكونُ يوماً ما باستطاعتِه مساعدةُ النّاسِ أكثرَ من المتوقَّعِ. الأشخاصُ ذووا السَّمعِ الطّبيعيّ قادرون على فهمِ 37 بالمئة من الكلمات المنطوقة وسط ضجيجٍ ثابتٍ بدون البرنامج، لتصبح 80 يالمئة بعد استخدامه .أمّا بالنّسبةِ للثّرثرةِ (الكلامُ غيرُ المفهومِ) فقد تحسّنت من 42 بالمئة من الكلمات إلى 78 بالمئة .

واحدةٌ من أكثرِ نتائجِ التّجاربِ إثارةً للاهتمامِ كانت عندما سألَ العلماءُ عمّا إذا كان باستطاعةِ الأشخاصِ ضعيفي السَّمعِ الّذين استخدموا البرنامج أن يتفوّقوا على أولئك ذوي السَّمعِ الطّبيعيّ؟ وللدّهشة، الإجابة هي نعم. فقد استطاعَ مستخدمو البرنامجِ ضعيفو السَّمع فهمَ 20 بالمئة من الكلامِ في جوِّ الثّرثرةِ، كما استطاعوا فهم كلماتٍ أكثرَ في الضّجيج الثّابتِ بما يُقارب الـ 15 بالمئة مقارنةً بالأشخاصِ طبيعيّي السّمع الّذين اعتمدوا على جهازهم السّمعيِّ لفصلِ الكلامِ عن الضّجيجِ. وبالنّظرِ إلى هذه النّتائج، أصبح هذا البرنامجُ أقربَ من قبل لحلِّ مشكلةِ حفلةِ الكوكتيل (cocktail party problem). يمكنكم الاستماعُ لبعض هذه الأصوات قبلَ وبعدَ الفلترةَ ضمن المقالِ الأصليِّ (من هنا) .

وبالطَّبعِ لدى البرنامجِ محدوديَّةً في القدراتِ، فعلى سبيلِ المثالِ كان نوعُ الضَّجيجِ الّذي يشوّشُ الكلامَ مشابهاً تماماً لنوعِ الضّجيجِ الّذي تمَّ تدريبُ البرنامجِ على تصنيفه. فللعملِ في بيئاتِ الحياةِ الحقيقيّةِ، سوفَ يحتاجُ البرنامجُ إلى التَّعلُّمِ بسرعةٍ لتصفيةِ العديدِ من أنواعِ الضّجيجِ، بما في ذلكَ أنواعٌ مختلفةُ عن تلكَ الّتي واجهها قبلاً. فعلى سبيلِ المثالِ، حفيفُ نظامِ التّهويةِ يكونُ عادةً مختلفاً عن همهمةِ البرّادِ. وبالإضافةِ إلى هذا، لم تحتوي العيّناتُ على عناصرَ مثل ارتدادِ الصَّوتِ على الجدرانِ والأشياءِ في الغرفة، والّذي يجمعُ مشكلةَ الضَّجيجِ في أيَّةِ حفلةِ كوكتيلٍ (cocktail party).

منذ أن نُشِرَت هذه النتائجُ المبكّرةُ، قام العلماءُ بشراءِ قاعدةِ بياناتٍ من المؤثّراتِ الصَّوتيّةِ الخاصّةِ بصنَّاعِ الأفلامِ واستخدموا 10،000 من الأصواتِ لتدريب البرنامجِ أكثرَ. في عام 2016، وجدوا بأنَّ البرنامجَ المُعادَ تدريبه يمكن أن يعملَ على أصواتٍ جديدةٍ كليّاً ويحققُ تحسُّناً ملموساً في الفهمِ لكلٍّ من المُستمعينَ ضعيفي السَّمعِ و ذوي السَّمعِ الطّبيعيِّ. أما الآن، وبتمويلٍ من المعهدِ الوطنيِّ للصُّمِّ واضطراباتِ التَّواصلِ الأخرى (National Institute on Deafness and Other Communication Disorders)، يقومُ العلماءُ بحثِّ البرنامجِ على العملِ في بيئاتٍ أكثرَ وكما يقومون باختباره على مستمعينَ أكثرَ ممن يعانونَ من فقدانِ السَّمعِ .

في نهايةِ المطافِ، يعتقدُ العلماء بأنّ البرنامج َمن الممكنِ أن يتمَّ تدريبه على حواسيبَ قويّةٍ ومن ثمَّ دمجَهُ مباشرةً بجهازٍ مُساعدٍ على السَّمعِ، أو توصيلُه بالهواتفِ الذّكيّةِ عن طريقِ الاتّصالِ اللّاسلكيِّ، كالبلوتوث، من أجل نقلِ الاشارةِ المعالَجَةِ لجهازِ مساعدةِ السَّمعِ. وبشكلٍ دوريٍّ، يمكن لمرتدي الأجهزةِ تحديثها عندما يصدر المنتَجُ تحديثاً جديداً مدرّباً على أصواتٍ جديدةٍ. لقد قام العلماءُ بالحصول على براءاتِ اختراعٍ خاصَّةٍ بالتّقنيّةِ المُستخدَمَةِ. كما يعملُ الفريقُ على تسويقِ التّقنيّةِ.

في النَّهايةِ، يمكننا القولُ أنَّه باستخدامِ هذه التّقنيّة، لم يعد لمشكلةِ حفلةِ الكوكتيلِ نفسَ الرَّهبةِ الّتي تمتَّعت بها من سنتين مضت. يعتقدُ علماءُ مختبرِ أوهايو بأنَّهم قادرين، بالإضافةِ لغيرهم من العلماءِ، على صناعةِ برمجيّةٍ قادرةٍ على التَّغلُّبِ على المشكلةِ بشكلٍ تامٍ من خلالِ التّدريبِ المكثَّفِ في البيئاتِ الصّاخبةِ. في الحقيقةِ، يعتقدُ العلماءُ بأنَّ هذه العمليّةَ مُشابهةٌ تماماً لكيفيّة تعلُّمِ الاطفالِ الصِّغارِ الفصلَ بين الكلامِ والضّجيجِ في حياتهم المبكرةِ، وذلك عن طريقِ التَّعرُّضِ الدَّائمِ لنسبةٍ عاليةٍ من كلاهم. وبالمزيدِ من الخبرة، ستزيدُ هذه التّقنيّةُ تحسُّنًا في المستقبل.

-------------------------------------------------------------------

المصادر:

هنا

هنا