المعلوماتية > عام
كيف يتصرف غوغل عند مواجهة موقع جديد؟
تؤدي محركاتُ البحث عملًا رائعًا في أرشفة وفهرسة المواقع الإلكترونية من أجل تسهيلِ الوصول إليها، وتقوم بذلك عن طريق ما يسمى بزواحف الويب والمفهرسات. ولكن قد لا يريد مديرُ أحدِ المواقع أن تقوم محركاتُ البحث بذلك من أجل موقع الويب الخاص به بشكل كاملٍ أو لبعض الملفات المحددة فقط، ويحدث ذلك مثلاً عندما يكونُ لديك نسختان من صفحة ما، إحداها للعرض على المتصفحات والأخرى معدّة للطباعة، عندئذ لا تريد أن تتمَّ أرشفة الصفحة المعدة للطباعة، فقد تُفرض عليك عقوبة المحتوى المكرر[1]. ولحل هذه المشكلة يتم استخدامُ معيار استبعاد زواحف الويب (REP)، أو بشكل أكثر تفصيلًا عن طريق الملف "robots.txt".
فما هو الملف "robots.txt"؟
يعدُّ هذا الملف وسيلةً إرشادية لمحركات البحث وأدواتها كي تعرف ما هي الصفحات التي تجبُ فهرستُها والصفحات المخالفة لذلك. ولكن لا يمكن إطلاقاً فرضُ طريقةِ التصرف على محركات البحث عبر هذا الملف، إذ يقوم كلُّ محركِ بحث بمعالجة هذا الملف بطريقة مختلفة، فبعضها يدعم حقول المطابقة العامة وبعضها لا، وقد يسمح بعضها بصياغات نحويةٍ مختلفة للملف في حين تدعم معظم محركات البحث هيكلاً نحوياً محدداً لبناء هذا الملف ويؤدي الخطأ فيه إلى فقدانه لأي فعالية.
تقوم الفكرة بشكل بسيط على تصريح مديرِ الموقع الإلكتروني عن الصفحات التي لا يودُّ فهرستَها أو أن تزورها زواحف الويب عن طريق وسوم "User-agent:"، الذي يحدّدُ اسمَ محرك البحث المعنيِّ بالقاعدة، ويقبل هذا الحقل علامةَ "*" والتي تعني موافقةَ هذه القاعدة لأي محرك بحث. والوسم الثاني المهم هو "Disallow:"، والذي يحدد الملفَّ أو المجلد المطلوب حجبه عن الفهرسة.
عند كتابة هذا الملف، يجب أن تُراعى البنية التي ستتم معالجته بها، إذ أن محركات البحث ستبحث عن القاعدة الأولى التي تقضي بالسماح أو عدم السماح بالنفاذ إلى مورد معين ولن تكملَ قراءةَ الملف إلى آخره، إذ يمكنُ أن يكون مدير الموقع قد أدخل قاعدةً محددة بدقة موافقة لهذه الحالة، وعندها لن تؤدي هذه الطريقةُ الغرضَ المطلوب.
وهناك ملاحظتان مهمتان عند استخدام الملف [robots.txt"[2":
لا يوجد شيءٌ يلزم محركاتِ البحث أو رجالها الآليين بالانصياعِ لما تم تحديده في الملف، وخصوصاً بالنسبة للرجال الآليين السيئين والمصممين للبحث عن الثغرات الأمنية، بالإضافة إلى حصادي عناوين البريد الإلكتروني المستخدمين من قبل من يقومون بإرسال الرسائل الإلكترونية المغرقة (spam).
ورجال الويب الآليين هي عبارة عن تطبيقات تستخدمها محركات البحث وتعمل بشكل خفيٍّ عن مستخدمي شبكة الإنترنت، إذ تقوم هذه التطبيقات بتعقبِ وفهرسة جميع المواقع الإلكترونية على مستوى العالم بحيث تسهل الوصولَ إليها، وهذا مثلاً ما يجعل محركَ البحث «غوغل» قادراً على إعطائك آلاف أو ملايين النتائج الموافقة لمفردات بحثك خلال بضعة أجزاء من الثانية فقط.
يكون الملف عامَّ الوصول؛ أي أنه يستطيع أي كان قراءة هذا الملف والاطلاع على ما تود إخفاءه، ولذا لا يتم أبداً استخدام هذه الطريقة لتخبئة المعلومات السرية ذات الحساسية، وهنا يجب أن تتم الحماية بوسائل أخرى ككلمات المرور مثلاً.
وبشكل عام توجد عدةُ طرق لمنع محركات البحث من النفاذ إلى مورد معين:
استخدام الملف "robots.txt": وفيه يتم إعلامُ زواحف الويب بعدم النفاذ إلى صفحة معينة. ولكن من المسموح أن تتم فهرسة هذه الصفحة وأن يتم عرضها في صفحات نتائج البحث.
استخدام الوسم "NoIndex": وهنا يتم إعلامُ محركاتِ البحث بأنه بإمكانها النفاذ. ولكن يُطلب عدم إظهار الرابط ضمن نتائج البحث. (ينصح بهذه الطريقة غالباً)
استخدام روابط عدم الملاحقة "Nofollowing": وهي طريقة ضعيفة، حيث يمكن لمحركات البحث استكشافُ الصفحات بطرق أخرى كأشرطة الأدوات في المتصفح والروابط من صفحات أخرى والمعلومات التحليلية وغيرها.
وكمثال عن استخدام الملف السابق ذكره، نوضح الحالة التالية:
الشكل 1: مثال عن ملف robots.txt ومحتوياته
يوضح الشكل السابق جزءًا من ملف robots.txt على الموقع about.com، وفيه يتم تحديد عدد من الصفحات المطلوب عدم فهرستها بالنسبة لكل محركات البحث، ومن هذه الصفحات نلاحظ الصفحة nosearch مثلاً، وعند البحث عن هذه الصفحة على موقع «غوغل»، نلاحظ الشكل التالي:
الشكل 2: نتائج البحث عن موقع يستخدم الملف robots.txt
وجد محرك البحث «غوغل» 2760 نتيجة من المجلد المطلوب حجبه، ولكن تم عرض النتائج كروابط بدلاً من قائمة عادية وذلك لأن زواحف الويب الخاصة بـ«غوغل» لم تدخل ذلك المجلد احتراماً للقواعد المكتوبة في الملف "robots.txt".
وللمهتمين بالتفاصيل البرمجية نقدم لكم بعض الإرشادات[3]:
لطلب عدم الفهرسة لأي محتوى من كل محركات البحث، نستخدم التعليمتين التاليتين:
* :User-agent
/ :Disallow
أما لمنع محرك بحث معين من النفاذ إلى مجلد معين فنكتب التعليمتين بالشكل التالي:
User-agent: Googlebot
/Disallow: /no-google
أما لمنع محرك بحث معين من النفاذ إلى صفحة محددة فنكتب التعليمتين كما يلي:
User-agent: Googlebot
Disallow: /no-google/blocked-page.html
ولمنع النفاذ لأكثر من مورد واحد يجب التصريح عن كل منها ضمن تعليمة "Disallow:" منفصلة.
----------------------------------
المصادر:
[1]: هنا
[2]: هنا
[3]: هنا