كيف تعمل محركات البحث
تعمل محركات البحث عن طريق تخزين المعلومات عن عدد كبير من صفحات الوِب، والتي تستعيدها من الشبكة العالمية وورلد وايد وب نفسها. تستعاد هذه الصفحات بواسطة زاحف وِب (يعرف أحيانا أيضا بـ ’عنكبوت‘) – وهو مستعرض وِب آلي يتبع كل رابط يراه. بعد ذلك يجري تحليل كل صفحة لتحديد كيف ينبغي فهرستها (على سبيل المثال، تستخلص الكلمات من العناوين، رؤوس الموضوعات، أو حقول خاصة تعرف ب ميتا تاجز). تخزن البيانات عن صفحات الوِب في قاعدة بيانات فهرسية للاستخدام في عمليات البحث طلبا لللمعلومات لاحقا. بعض محركات البحث، مثل جوجل، تخزن كل أو بعض الصفحة المصدر (وتشير لها ب مخبوءة) وبالمثل معلومات عن صفحات الوِب، بينما بعضها تخزن كل كلمة من كل صفحة تجدها، مثل ألتاڤيستا. هذه الصفحة المخبوءة تمسك بنص البحث الفعلي بما أنه هو الذي تمت فهرسته فعليا، لذا فقد تكون مفيدة جدا عندما يكون محتوى الصفحة الحالية قد جرى تحديثه ولم تعد ألفاظ البحث فيه. ربما تعتبر هذه المشكلة شكلا خفيفا من تعفن الروابط، وتزيد معالجة جوجل لها من إمكانية الاستخدام بإرضاء توقعات المستخدم بأن ترد ألفاظ البحث في صفحات الوِب العائدة في الرد. وهو ما يرضي ’مبدأ مفاجأة أخف من مفاجأة‘ بما أن المستخدم يتوقع بشكل طبيعي ألفاظ البحث في النتيجة العائدة له. وهذه الصلة بالبحث تجعل هذه الصفحات المخبوءة مفيدة جدا، حتى أكثر من واقع أنها قد تحتوي على بيانات ربما لم تعد متاحة في موضع آخر.
عندما يتوجه مستخدم لمحرك البحث ويجري عملية بحث طلبا للمعلومات، كما هو سائد بإعطاء كلمات مفتاحية، يفتش المحرك في الفهرس ويقدم قائمة بصفحات الوِب الأفضل توافقا تبعا لمعاييره، في المعتاد مع ملخص قصير يحتوي على عنوان الوثيقة وأحيانا أجزاء من النص. معظم محركات البحث تدعم استخدام الاصطلاحات البولينية (نسبة للجبر البوليني وهو نوع من المتغيرات المنطقية): AND وOR وNOT لمزيد من تحديد طلب المعلومات. وهناك خدمة وظيفية متقدمة هي البحث بالتقارب، والتي تسمح لك بتحديد المسافة بين الكلمات المفتاحية، باستخدام ألفاظ مثل NEAR، NOT NEAR، FOLLOWED BY، NOT FOLLOWED BY، SENTENCE، FAR.
يعتمد مدى فائدة محرك بحث على مدى صلة النتائج التي يرد بها. فبينما قد تكون هناك ملايين صفحات الوِب التي تحتوي على كلمة أو عبارة محددة، قد تكون بعض أوثق صلة، أو أروج، أو معتمدة أكثر من غيرها. معظم محركات البحث توظف أساليب لوضع مراتب النتائج لتقدم أفضل النتائج أولا. الكيفية التي يقرر بها محرك بحث أي الصفحات هي الأفضل توافقا، وما النظام الذي يجب أن تظهر به النتائج، تختلف بشكل شاسع من محرك لآخر. الأساليب أيضا تتغير عبر الزمن بتغير استخدام إنترنت وتكنيكات جديدة تتطور.
معظم محركات البحث هي مضاربات تجارية يدعمها عائد إعلاني و، بالنتيجة، يوظف البعض الممارسة المثيرة للجدل بالسماح للمعلنين بدفع النقود ليرفعوا لهم قوائهم في مراتب نتائج البحث.
الأغلبية الكاسحة من محركات البحث تديرها شركات خاصة تستخدم خوارزميات ملكها وقواعد بيانات مغلقة، وأكثرها رواجا حاليا هي جوجل وباحث إمإسإن وياهو. توجد تقنية محركات بحث مفتوحة المصدر مثل إتشتيدِج، نتش، سيناز، إيجوثور وأوبنإفتيإس، ولكن ليس هناك خادم بحث وورلد وايد وِب مشاع يستخدم هذه التقنية.
جاء تطور محرك بحث الوِب من تطور محركات البحث على شبكات الأجهزة والشبكات الداخلية.
محركات البحث على الإنترنت
يمكننا القول بأن إنترنت ومواقعها لن تكون ذات فائدة كبيرة بالنسبة لنا لو لم تكن محركات البحث على إنترنت موجودة. في البدء كانت محركات البحث عبارة عن أدلة تقوم بفهرسة مواقع إنترنت الجديدة. وقد كان ذلك فعالا عندما كان حجم إنترنت يقدر بملايين الصفحات. ثم تطورت إنترنت، وانضم إليها الملايين من مؤسسات الأعمال، والمؤسسات الحكومية، وبلايين الصفحات من أدلة استخدام المنتجات، والمعلومات الخاصة بالمستثمرين، وغير ذلك من المعلومات التي تقوم بتسيير عجلة اقتصاد إنترنت. ومع هذا النمو أصبح من الضروري، بل ومن الحتمي إضافة محرك بحث فعال إلى كافة مواقع إنترنت، يقوم بفهرسة وتصنيف المعلومات الموجودة ضمن هذه المواقع كي تتمكن من خدمة زوارها بشكل فعال. واليوم، وبعد أن أصبحت محركات البحث جزءا أساسيا في حضارتنا الإنترنتية، فإن هناك العشرات من الشركات العاملة في مجال إنتاج برمجيات، وتقنيات، وأساليب بحث جديدة موجهة نحو إنترنت وإنترانت. وبسبب الدور المتزايد الذي تلعبه التجارة والأعمال الإلكترونية في اقتصاد اليوم، فإن الحافز المادي على الأقل موجود. ولكن رغم النجاح الذي تدّعي الشركات المنتجة لتقنيات البحث تحقيقه، فإن المستخدمين لا زالوا يشكون من افتقار محركات البحث إلى الدقة المطلوبة، وتلبية النتائج التي يتم تحصيلها لمتطلبات المستخدمين
مشاكل تقنيات البحث
إن مفتاح النجاح في الحصول على نتائج بحث جيدة، تكمن في نوعية الاستفسارات، أو الأسئلة، أو العبارات أو الكلمات المفتاحية التي نقوم بإدخالها في محركات البحث. لكن المشكلة الأساسية هنا تكمن في أن الغالبية العظمى من المستخدمين لا يقومون عادة بإدخال الاستفسارات أو الكلمات المفتاحية الصحيحة، والتي تؤدي إلى الحصول على النتائج المطلوبة، وسنستعرض فيما يلي المشاكل الشائعة في عالم البحث عن المعلومات، والطرق التي يحاول بها الباحثون معالجة هذه المشكلات.
عدم طرح الأسئلة الصحيحة
من الحقائق الغريبة التي يؤكدها خبراء المعلومات هي أن المستخدمين نادرا ما يقومون بطرح الأسئلة التي تعبر عما يريدونه فعلا. والسبب الرئيس في ذلك هو الافتقار إلى الفهم الصحيح للموضوع قيد البحث، وبالتالي عدم استخدام الكلمات المفتاحية الصحيحة، والتي تؤدي إلى تكوين استعلامات وأسئلة صحيحة. فالمشكلة الأساسية هنا إذا، هي مساعدة المستخدمين على طرح الأسئلة وتكوين الاستعلامات الصحيحة. ومن مظاهر هذه المشكلة أيضا هي صغر حجم الاستعلامات التي يكونها المستخدم عادة للاستفسار عن موضوع معين. فإذا كان مستخدم ما يريد معلومات عن "السفر" مثلا، فإنه يبدأ بإدخال كلمة عامة في محرك البحث، ومن ثم، واعتمادا على النتائج التي يحصل عليها، يقوم بتضييق نطاق بحثه إلى أن يصل إلى ما يريده. والسبب في أن العديد من مستخدمي إنترنت يستعملون هذا الأسلوب يكمن في أنهم لا يعرفون حقا الحجم المهول للمعلومات الموجودة في قواعد البيانات الخاصة بمحركات البحث، والتي تفوق عادة ما يمكن لأي إنسان التعامل معه.
الموازنة بين الكم والنوع
عند التعامل مع تقنيات البحث فلا بد من الموازنة بين الكم والنوع، أو ما يدعوه الخبراء بالدقة والقدرة على الاسترجاع. وهي علاقة عكسية تماما، فكلما تم تضييق نطاق البحث سعيا عن نتائج أكثر دقة، كلما قل مقدار البيانات الذي يمكن استرجاعه. ولذلك فإن هناك حاجة لوجود محركات بحث تقدم دقة عالية دون التضحية بمقدار النتائج "الدقيقة" التي نسترجعها.
غموض الكلمات
معظم الكلمات تحمل أكثر من معنى، ومعظم محركات البحث المستخدمة اليوم تقوم بمطابقة الكلمات وليس معانيها، ولذلك فإن نتائج عمليات البحث التي نحصل عليها، تحتوي غالبا على الكلمات المفتاحية الصحيحة، ولكنها ذات المعنى الخاطئ. فإذا جربت مثلا أن تبحث عن معنى كلمة "جافا" مثلا، وهي إحدى لغات البرمجة الشائعة الاستخدام، فإنك ستحصل الكثير من النتائج المتعلقة بالجفاف، أو باسم جزيرة إندونيسية تحمل الاسم نفسه، إضافة إلى معلومات عن لغة البرمجة.
الأسماء وأنواعها
وماذا عن البحث في الأسماء، أي البحث عن معلومات عن الأشخاص والأماكن، وما إلى ذلك. خصوصا وأن الكتاب يغيرون عادة الطريقة التي يقومون بها بكتابة الأسماء. وإذا ما تحدثنا مثلا عن أسماء الشركات، فإنها تتغير باستمرار نتيجة عملية الاندماج والضم، مما يجعل عملية البحث صعبة. وقد يقول البعض أنه يمكن التغلب على هذه المشكلة نوعا ما باستخدام برمجيات الفهرسة، ولكن المشكلة هي أن المعلومات في عالمنا تتغير باستمرار مما يجعل الفهرسة اليدوية صعبة. وماذا عن الفهرسة الآلية؟ الإجابة هي أنه لا توجد بعد التقنية التي يمكنها القيام بذلك بدقة، بحيث يمكن التمييز مثلا بين مقال كامل عن شخص معين، ومقال آخر يذكر اسم الشخص بشكل عابر.
.
تعمل محركات البحث عن طريق تخزين المعلومات عن عدد كبير من صفحات الوِب، والتي تستعيدها من الشبكة العالمية وورلد وايد وب نفسها. تستعاد هذه الصفحات بواسطة زاحف وِب (يعرف أحيانا أيضا بـ ’عنكبوت‘) – وهو مستعرض وِب آلي يتبع كل رابط يراه. بعد ذلك يجري تحليل كل صفحة لتحديد كيف ينبغي فهرستها (على سبيل المثال، تستخلص الكلمات من العناوين، رؤوس الموضوعات، أو حقول خاصة تعرف ب ميتا تاجز). تخزن البيانات عن صفحات الوِب في قاعدة بيانات فهرسية للاستخدام في عمليات البحث طلبا لللمعلومات لاحقا. بعض محركات البحث، مثل جوجل، تخزن كل أو بعض الصفحة المصدر (وتشير لها ب مخبوءة) وبالمثل معلومات عن صفحات الوِب، بينما بعضها تخزن كل كلمة من كل صفحة تجدها، مثل ألتاڤيستا. هذه الصفحة المخبوءة تمسك بنص البحث الفعلي بما أنه هو الذي تمت فهرسته فعليا، لذا فقد تكون مفيدة جدا عندما يكون محتوى الصفحة الحالية قد جرى تحديثه ولم تعد ألفاظ البحث فيه. ربما تعتبر هذه المشكلة شكلا خفيفا من تعفن الروابط، وتزيد معالجة جوجل لها من إمكانية الاستخدام بإرضاء توقعات المستخدم بأن ترد ألفاظ البحث في صفحات الوِب العائدة في الرد. وهو ما يرضي ’مبدأ مفاجأة أخف من مفاجأة‘ بما أن المستخدم يتوقع بشكل طبيعي ألفاظ البحث في النتيجة العائدة له. وهذه الصلة بالبحث تجعل هذه الصفحات المخبوءة مفيدة جدا، حتى أكثر من واقع أنها قد تحتوي على بيانات ربما لم تعد متاحة في موضع آخر.
عندما يتوجه مستخدم لمحرك البحث ويجري عملية بحث طلبا للمعلومات، كما هو سائد بإعطاء كلمات مفتاحية، يفتش المحرك في الفهرس ويقدم قائمة بصفحات الوِب الأفضل توافقا تبعا لمعاييره، في المعتاد مع ملخص قصير يحتوي على عنوان الوثيقة وأحيانا أجزاء من النص. معظم محركات البحث تدعم استخدام الاصطلاحات البولينية (نسبة للجبر البوليني وهو نوع من المتغيرات المنطقية): AND وOR وNOT لمزيد من تحديد طلب المعلومات. وهناك خدمة وظيفية متقدمة هي البحث بالتقارب، والتي تسمح لك بتحديد المسافة بين الكلمات المفتاحية، باستخدام ألفاظ مثل NEAR، NOT NEAR، FOLLOWED BY، NOT FOLLOWED BY، SENTENCE، FAR.
يعتمد مدى فائدة محرك بحث على مدى صلة النتائج التي يرد بها. فبينما قد تكون هناك ملايين صفحات الوِب التي تحتوي على كلمة أو عبارة محددة، قد تكون بعض أوثق صلة، أو أروج، أو معتمدة أكثر من غيرها. معظم محركات البحث توظف أساليب لوضع مراتب النتائج لتقدم أفضل النتائج أولا. الكيفية التي يقرر بها محرك بحث أي الصفحات هي الأفضل توافقا، وما النظام الذي يجب أن تظهر به النتائج، تختلف بشكل شاسع من محرك لآخر. الأساليب أيضا تتغير عبر الزمن بتغير استخدام إنترنت وتكنيكات جديدة تتطور.
معظم محركات البحث هي مضاربات تجارية يدعمها عائد إعلاني و، بالنتيجة، يوظف البعض الممارسة المثيرة للجدل بالسماح للمعلنين بدفع النقود ليرفعوا لهم قوائهم في مراتب نتائج البحث.
الأغلبية الكاسحة من محركات البحث تديرها شركات خاصة تستخدم خوارزميات ملكها وقواعد بيانات مغلقة، وأكثرها رواجا حاليا هي جوجل وباحث إمإسإن وياهو. توجد تقنية محركات بحث مفتوحة المصدر مثل إتشتيدِج، نتش، سيناز، إيجوثور وأوبنإفتيإس، ولكن ليس هناك خادم بحث وورلد وايد وِب مشاع يستخدم هذه التقنية.
جاء تطور محرك بحث الوِب من تطور محركات البحث على شبكات الأجهزة والشبكات الداخلية.
محركات البحث على الإنترنت
يمكننا القول بأن إنترنت ومواقعها لن تكون ذات فائدة كبيرة بالنسبة لنا لو لم تكن محركات البحث على إنترنت موجودة. في البدء كانت محركات البحث عبارة عن أدلة تقوم بفهرسة مواقع إنترنت الجديدة. وقد كان ذلك فعالا عندما كان حجم إنترنت يقدر بملايين الصفحات. ثم تطورت إنترنت، وانضم إليها الملايين من مؤسسات الأعمال، والمؤسسات الحكومية، وبلايين الصفحات من أدلة استخدام المنتجات، والمعلومات الخاصة بالمستثمرين، وغير ذلك من المعلومات التي تقوم بتسيير عجلة اقتصاد إنترنت. ومع هذا النمو أصبح من الضروري، بل ومن الحتمي إضافة محرك بحث فعال إلى كافة مواقع إنترنت، يقوم بفهرسة وتصنيف المعلومات الموجودة ضمن هذه المواقع كي تتمكن من خدمة زوارها بشكل فعال. واليوم، وبعد أن أصبحت محركات البحث جزءا أساسيا في حضارتنا الإنترنتية، فإن هناك العشرات من الشركات العاملة في مجال إنتاج برمجيات، وتقنيات، وأساليب بحث جديدة موجهة نحو إنترنت وإنترانت. وبسبب الدور المتزايد الذي تلعبه التجارة والأعمال الإلكترونية في اقتصاد اليوم، فإن الحافز المادي على الأقل موجود. ولكن رغم النجاح الذي تدّعي الشركات المنتجة لتقنيات البحث تحقيقه، فإن المستخدمين لا زالوا يشكون من افتقار محركات البحث إلى الدقة المطلوبة، وتلبية النتائج التي يتم تحصيلها لمتطلبات المستخدمين
مشاكل تقنيات البحث
إن مفتاح النجاح في الحصول على نتائج بحث جيدة، تكمن في نوعية الاستفسارات، أو الأسئلة، أو العبارات أو الكلمات المفتاحية التي نقوم بإدخالها في محركات البحث. لكن المشكلة الأساسية هنا تكمن في أن الغالبية العظمى من المستخدمين لا يقومون عادة بإدخال الاستفسارات أو الكلمات المفتاحية الصحيحة، والتي تؤدي إلى الحصول على النتائج المطلوبة، وسنستعرض فيما يلي المشاكل الشائعة في عالم البحث عن المعلومات، والطرق التي يحاول بها الباحثون معالجة هذه المشكلات.
عدم طرح الأسئلة الصحيحة
من الحقائق الغريبة التي يؤكدها خبراء المعلومات هي أن المستخدمين نادرا ما يقومون بطرح الأسئلة التي تعبر عما يريدونه فعلا. والسبب الرئيس في ذلك هو الافتقار إلى الفهم الصحيح للموضوع قيد البحث، وبالتالي عدم استخدام الكلمات المفتاحية الصحيحة، والتي تؤدي إلى تكوين استعلامات وأسئلة صحيحة. فالمشكلة الأساسية هنا إذا، هي مساعدة المستخدمين على طرح الأسئلة وتكوين الاستعلامات الصحيحة. ومن مظاهر هذه المشكلة أيضا هي صغر حجم الاستعلامات التي يكونها المستخدم عادة للاستفسار عن موضوع معين. فإذا كان مستخدم ما يريد معلومات عن "السفر" مثلا، فإنه يبدأ بإدخال كلمة عامة في محرك البحث، ومن ثم، واعتمادا على النتائج التي يحصل عليها، يقوم بتضييق نطاق بحثه إلى أن يصل إلى ما يريده. والسبب في أن العديد من مستخدمي إنترنت يستعملون هذا الأسلوب يكمن في أنهم لا يعرفون حقا الحجم المهول للمعلومات الموجودة في قواعد البيانات الخاصة بمحركات البحث، والتي تفوق عادة ما يمكن لأي إنسان التعامل معه.
الموازنة بين الكم والنوع
عند التعامل مع تقنيات البحث فلا بد من الموازنة بين الكم والنوع، أو ما يدعوه الخبراء بالدقة والقدرة على الاسترجاع. وهي علاقة عكسية تماما، فكلما تم تضييق نطاق البحث سعيا عن نتائج أكثر دقة، كلما قل مقدار البيانات الذي يمكن استرجاعه. ولذلك فإن هناك حاجة لوجود محركات بحث تقدم دقة عالية دون التضحية بمقدار النتائج "الدقيقة" التي نسترجعها.
غموض الكلمات
معظم الكلمات تحمل أكثر من معنى، ومعظم محركات البحث المستخدمة اليوم تقوم بمطابقة الكلمات وليس معانيها، ولذلك فإن نتائج عمليات البحث التي نحصل عليها، تحتوي غالبا على الكلمات المفتاحية الصحيحة، ولكنها ذات المعنى الخاطئ. فإذا جربت مثلا أن تبحث عن معنى كلمة "جافا" مثلا، وهي إحدى لغات البرمجة الشائعة الاستخدام، فإنك ستحصل الكثير من النتائج المتعلقة بالجفاف، أو باسم جزيرة إندونيسية تحمل الاسم نفسه، إضافة إلى معلومات عن لغة البرمجة.
الأسماء وأنواعها
وماذا عن البحث في الأسماء، أي البحث عن معلومات عن الأشخاص والأماكن، وما إلى ذلك. خصوصا وأن الكتاب يغيرون عادة الطريقة التي يقومون بها بكتابة الأسماء. وإذا ما تحدثنا مثلا عن أسماء الشركات، فإنها تتغير باستمرار نتيجة عملية الاندماج والضم، مما يجعل عملية البحث صعبة. وقد يقول البعض أنه يمكن التغلب على هذه المشكلة نوعا ما باستخدام برمجيات الفهرسة، ولكن المشكلة هي أن المعلومات في عالمنا تتغير باستمرار مما يجعل الفهرسة اليدوية صعبة. وماذا عن الفهرسة الآلية؟ الإجابة هي أنه لا توجد بعد التقنية التي يمكنها القيام بذلك بدقة، بحيث يمكن التمييز مثلا بين مقال كامل عن شخص معين، ومقال آخر يذكر اسم الشخص بشكل عابر.
.