كيف تعمل محركات البحث؟
المعلوماتية >>>> الذكاء الصنعي
دعونا نفهم أولًا ماذا يعني محرك بحث؟ محركاتُ البحث (Search Engines) عبارةٌ عن مجموعة من قواعد البيانات تحوي بداخلها دليلَ صفحاتِ الويب أوالشبكة مع الحد الأدنى من المعلومات عن هذه الصفحات. ويتمُّ البحثُ داخلَ كل الدليل عبر برامجَ وخوارزمياتٍ معقدة تقوم بالبحث وتصنيف نتائج البحث وفقَ أفضل طريقة.
ماذا يحدثُ حين تقومُ بالبحث عبر الويب من خلال محرك البحث؟
ينبغي أن تعرفَ أنك عندما تقومُ بالبحث باستعمال محرك البحث فأنت لا تبحثُ عبر الويب كله، بل عبر دليل محركِ البحث (index). يتمُّ ذلك من خلال برامجَ تسمى زواحف الويب (Web Crawlers)، وهي عبارة عن برامج تلقائية أو بوتات (bots) (لقراءة مقالنا السابق عن البوتات هنا هنا) تقوم باستكشاف الويب وجلب عددٍ صغير من الصفحات ثم تتبعُ الروابطَ الموجودة داخل هذه الصفحات وتجلب الصفحات التي توصل إليها هذه الروابط ثم تتبع مجموعة هذه الروابط لجلب المزيد من الصفحات وهكذا إلى أن تحصل على مليارات الصفحات التي تُخزّن في فهارس داخل الآلاف من المخدمات. وهنا تكونُ نهايةُ الجزء الأول من البحث وتجميعِ الصفحات وصولاً إلى فهرستها ضمن المخدمات.
ثم يأتي دورُ خوارزمياتِ البحث، التي تأتي في شكل برامجَ ومقاطعَ برمجية تحرص على تقديم أفضل النتائج، حتى أن الخوارزميةَ باتت قادرةً على فهم ما تقصده بكلماتك حتى لو لم تقصد المعنى الحرفي.
لنفترض أننا نود معرفة مدى سرعة الفهد، فنكتب على محرك البحث الكلمات المفتاحية التالية:
سرعة + فهد + ركض، عندها يقوم البرنامجُ بالبحث داخل الفهرس عن كل الصفحات التي تحوي هذه الكلمات، وبالاعتماد على هذه الخوارزميات يقرّرُ محرك البحث أي النتائج تريدها. وتتميز الآن المحركاتُ بمجموعة من طرق البحث كالبحث عبر الصور والمقاطع الصوتية. بالإضافة إلى ميزة الإتمام التلقائي (auto-completion) الذي يحاول التنبؤَ بما نبحث عنه بعد أن تكتب أول حرف فقطمن الكلمة مثلًا)، وتصحيح تهجئة الكلمات (spell-checking) في حال قمت بكتابة كلمة خاطئة، وفهم الاستعلام بحيث - كما ذكرنا- يكونُ المحرك قادرٌ على فهم ما تقصده بكلماتك حتى لو لم تقصد المعنى الحرفي، وغيرها من التقنيات المدهشة التي تُشعرك أن محرك البحث يستطيعُ قراءةَ أفكارك. وبالاستناد إلى ما سبق، يستطيع المحركُ الوصولَ إلى ما تريده ضمن الفهارس الموجودة.
يُستخدَم أكثر من 200 عاملٍ لتحدد النتائج التي سوف تظهر من ضمن النتائج الكلية التي حصلت عليها الخوارزمية من الفهارس، مثلاً جودة الصفحة والموقع، وهل هذه الصفحة حديثة أو قديمة، واستخدام ميزة البحث الآمن ومعرفة ما إذا كانت الصفحة آمنة أم لا، وهل لغة الصفحة مشابهة للغة البحث، وغيرها من الأسئلة، مثلاً، كم عدد المرات التي ظهرت فيها كلمة البحث في الصفحة؟ هل تظهر هذه الكلمات في عنوان الصفحة أم في رابط الصفحة؟ هل هي متجاورة؟ هل تحتوي الصفحة على مرادفات لهذه الكلمات؟ أم أنها من مواقع طفيلية؟
في شركة «غوغل» يتمُّ حسابُ ترتيب الصفحة (Page Rank) من خلال خوارزمية طورت من قبل لاري بايج (Larry Page) وسيرغي بران (Sergey Brin) والتي تقوم بتقدير أهميةِ الصفحة من خلال كميةِ الروابط الخارجية الموصلة لها ومدى أهمية كل رابط. في النهاية، تُجمع كل هذه العوامل لحساب المجموع النهائي لكل صفحة ثم تُعرض نتائج البحث في ظرف ⅛ من الثانية بعد كتابة السؤال.
تأخذُ نتائجُ البحث أشكالًا عديدة، تأتي أبرزُها في شكل مداخل، يحتوي كل منها على عنوان الصفحة ورابط الصفحة ومقتطف من محتوى الصفحة، بالإضافة إلى روابطَ لصفحات مماثلة وروابط لنسخ مخبأة للصفحة نفسها، وأحيانًا روابط دعائية على علاقة بمضمون الصفحة.
بعد زواحف الويب والفهرسة واستعمال خوارزميات البحث، تأتي المرحلةُ الأخيرة وهي حذفُ المواقع الطفيلية (Spam) وذلك للحفاظ على نتائجِ البحث سليمة. يكون التصدي لمثل هذه المواقع بشكلٍ مؤتمت، وفي بعض الحالات الخاصة يكون يدوياً، ويتمُّ إعلامُ مالك الموقع أو الصفحة عند إيجاد أي طفيليات ضمن صفحته وننتظر منهم ردوداً بهذا الخصوص.
المصادر:
هنا
هنا