تبلیغات
شنیده ها و نشنیده ها - موتورهای جستجو چگونه کار می‌کنند؟
شنبه 1387/11/12

موتورهای جستجو چگونه کار می‌کنند؟

   نوشته شده توسط: پوریا    نوع مطلب :عمومی ،

موتورهای جست‌وجو به دو دسته کلی تقسیم می‌شوند. موتورهای جست‌وجوی پیمایشی و فهرست‌های تکمیل دستی. هر کدام از آنها برای تکمیل فهرست خود از روش‌های متفاوتی استفاده می‌کنند که هر یک را به طور جداگانه مورد بررسی قرار می‌دهیم:

موتورهای جست‌وجوی پیمایشی یا Crawler-Based Search Engines
موتورهای جست‌وجوی پیمایشی مانند 
Google لیست خود را به صورت خودکار تشکیل می‌دهند. آنها وب را پیمایش کرده و سپس کاربران آنچه را که می‌خواهند از میانشان جست‌وجو می‌کنند. اگر شما در صفحه وب خود تغییراتی را اعمال نمایید، موتورهای جست‌وجوی پیمایشی آنها را به خودی خود می‌یابند و سپس این تغییرات لیست خواهند شد. عنوان، متن و دیگر عناصر صفحه، همگی شامل این لیست خواهند بود.

فهرستهای تکمیل دستی یا Human-Powered Directories
یک فهرست تکمیل دستی مانند یک Open Directory مثل 
Dmoz وابسته به کاربرانی است که آن را تکمیل می‌کنند. شما صفحه مورد نظر را به همراه توضیحی مختصر در فهرست ثبت می‌کنید یا این کار توسط ویراستارهایی که برای آن فهرست در نظر گرفته شده انجام می‌شود.
عمل جست‌وجو در این حالت تنها بر روی توضیحات ثبت شده صورت می‌گیرد و در صورت تغییر روی صفحه وب، روی فهرست تغییری بوجود نخواهد آورد. چیزهایی که برای بهبود یک فهرست‌بندی در یک موتور جست‌وجو مفید هستند، تأثیری بر بهبود فهرست‌بندی یک دایرکتوری ندارند. تنها استثناء این است که یک سایت خوب با پایگاه داده‌ای با محتوای خوب شانس بیشتری به نسبت یک سایت با پایگاه داده ضعیف دارد.


موتورهای جست‌وجوی ترکیبی با نتایج مختلط
به موتورهایی اطلاق می‌شود که هر دو حالت را در کنار هم نمایش می‌دهند. غالباً، یک موتور جست‌وجوی ترکیبی در صورت نمایش نتیجه جست‌وجو از هر یک از دسته‌های فوق، نتایج حاصل از دسته دیگر را هم مورد توجه قرار می‌دهد. مثلا 
موتور جست‌وجوی MSN بیشتر نتایج حاصل از فهرست‌های تکمیل دستی را نشان می‌دهد اما در کنار آن نیم نگاهی هم به نتایج حاصل از جست‌وجوی پیمایشی دارد.

بررسی یک موتور جست‌وجوی پیمایشی
موتورهای جست‌وجوی پیمایشی شامل سه عنصر اصلی هستند. اولی در اصطلاح عنکبوت (Spider) است که پیمایش‌گر (Crawler) هم نامیده می‌شود. پیمایش‌گر همین که به یک صفحه می‌رسد، آن را می‌خواند و سپس لینک‌های آن به صفحات دیگر را دنبال می‌نماید. این چیزی است که برای یک سایت پیمایش‌شده (Crawled) اتفاق افتاده است. پیمایش‌گر با یک روال منظم، مثلاً یک یا دو بار در ماه به سایت مراجعه می‌کند تا تغییرات موجود در آن را بیابد. هر چیزی که پیمایش‌گر بیابد به عنصر دوم یک موتور جست‌وجو یعنی فهرست انتقال پیدا می‌کند. فهرست اغلب به کاتالوگی بزرگ اطلاق می‌شود که شامل لیستی از آنچه است که پیمایش‌گر یافته است. مانند کتاب عظیمی که فهرستی را از آن چه که پیمایش‌گرها از صفحات وب یافته‌اند، شامل شده است. هرگاه سایتی دچار تغییر شود، این فهرست نیز به روز خواهد شد.
از زمانی که تغییری در صفحه‌ای از سایت ایجاد شده تا هنگامی که آن تغییر در فهرست موتور جست‌وجو ثبت شود مدت زمانی طول خواهد کشید. پس ممکن است که یک سایت پیمایش‌شده باشد اما فهرست‌شده نباشد. تا زمانی که این فهرست‌بندی برای آن تغییر ثبت نشده باشد، نمی‌توان انتظار داشت که در نتایج جست‌وجو آن تغییر را ببینیم. نرم‌افزار موتور جست‌وجو، سومین عنصر یک موتور جست‌وجو است و به برنامه‌ای اطلاق می‌شود که به صورت هوشمندانه‌ای داده‌های موجود در فهرست را دسته‌بندی کرده و آنها را بر اساس اهمیت طبقه‌بندی می‌کند تا نتیجه جست‌وجو با کلمه‌های درخواست شده هر چه بیشتر منطبق و مربوط باشد.

چگونه موتورهای جست‌وجو صفحات وب را رتبه‌بندی می‌کنند؟
وقتی شما از موتورهای جست‌وجوی پیمایشی چیزی را برای جست‌وجو درخواست می‌نمایید، تقریباً بلافاصله این جست‌وجو از میان میلیون‌ها صفحه صورت گرفته و مرتب می‌شود به طوریی که مربوط‌ترین آنها نسبت به موضوع مورد درخواست شما رتبه بالاتری را احراز نماید.
البته باید در نظر داشته باشید که موتورهای جست‌وجو همواره نتایج درستی را به شما ارائه نخواهند داد و مسلماً صفحات نامربوطی را هم در نتیجه جست‌وجو دریافت می‌کنید و گاهی اوقات مجبور هستید که جست‌وجوی دقیق‌تری را برای آن چه که می‌خواهید انجام دهید اما موتورهای جست‌وجو کار حیرت‌انگیز دیگری نیز انجام می‌دهند.
فرض کنید که شما به یک کتابدار مراجعه می‌کنید و از وی درباره «سفر» کتابی می‌خواهید. او برای این که جواب درستی به شما بدهد و کتاب مفیدی را به شما ارائه نماید با پرسیدن سؤالاتی از شما و با استفاده از تجارب خود کتاب مورد نظرتان را به شما تحویل خواهد داد. موتورهای جست‌وجو همچنین توانایی ندارند اما به نوعی آنها را شبیه‌سازی می‌کنند.
پس موتورهای جست‌وجوی پیمایشی چگونه به جواب مورد نظرتان از میان میلیون‌ها صفحه وب می‌رسند؟ آنها یک مجموعه از قوانین را دارند که الگوریتم نامیده می‌شود. الگوریتم‌های مورد نظر برای هر موتور جست‌وجویی خاص و تقریباً سری هستند اما به هر حال از قوانین زیر پیروی می‌کنند:

مکان و تکرار
یکی از قوانین اصلی در الگوریتم‌های رتبه‌بندی موقعیت و تعداد تکرار کلماتی است که در صفحه مورد استفاده قرار گرفته‌اند که به طور خلاصه روش مکان-تکرار (Location/Frequency Methode) نامیده می‌شود.
کتابدار مذکور را به خاطر می‌آورِد؟ لازم است که او کتاب‌های در رابطه با کلمه «سفر» را طبق درخواست شما بیابد. او در وهله اول احساس می‌کند که شما به دنبال کتاب‌هایی هستید که در نامشان کلمه «سفر» را شامل شوند. موتورهای جست‌وجو هم دقیقاً همان کار را انجام می‌دهند. آنها هم صفحاتی را برایتان لیست می‌کنند که در برچسب Title موجود در کد HTML حاوی کلمه «سفر» باشند.
موتورهای جست‌وجو همچنین به دنبال کلمه مورد نظر در بالای صفحات و یا در ابتدای پاراگراف‌ها هستند. آنها فرض می‌کنند که صفحاتی که حاوی آن کلمه در بالای خود و یا در ابتدای پاراگراف‌ها و عناوین باشند به نتیجه مورد نظر شما مربوط‌تر هستند.
تکرار یا Frequency عامل بزرگ و مهم دیگری است که موتورهای جست‌وجو از طریق آن صفحات مربوط را شناسایی می‌نمایند. موتورهای جست‌وجو صفحات را تجزیه کرده و با توجه به تکرار کلمه‌ای در صفحه متوجه می‌شوند که آن کلمه نسبت به دیگر کلمات اهمیت بیشتری در آن صفحه دارد و آن صفحه را در درجه بالاتری نسبت به صفحات دیگر قرار می‌دهند.

دستور آشپزی
خب آشپزی چه ربطی به موتورهای جست‌وجو دارد؟ رابطه در اینجاست. همان طور که آشپزهای حرفه‌ای دستورات آشپزی خود را در لفافه نگه می‌دارند و مقدار و چگونگی ادویه‌های افزودنی به غذاهای خود را افشا نمی‌کنند، چگونگی کارکرد دقیق موتورهای جست‌وجو درباره روش‌هایی از قبیل مکان-تکرار فاش نمی‌شود و هر موتور جست‌وجویی روش خود را دنبال می‌کند. به همین دلیل است که وقتی شما کلمات واحدی را در موتورهای متفاوت جست‌وجو می‌کنید، به نتایج متفاوتی می‌رسید.
برخی موتورهای جست‌وجو نسبت به برخی دیگر صفحات بیشتری را فهرست کرده‌اند. نتیجه این خواهد شد که هیچ موتور جست‌وجویی نتیجه جست‌وجوی مشترکی با موتور دیگر نخواهد داشت و شما نتایج متفاوتی را از آنها دریافت می‌کنید. موتورهای جست‌وجو همچنین ممکن است که برخی از صفحات را از فهرست خود حذف کنند البته به شرطی که آن صفحات با Spam شدن سعی در گول زدن موتورهای جست‌وجو داشته باشند. Spamming روشی است که برخی از صفحات برای احراز رتبه بالاتر در موتورهای جست‌وجو در پیش می‌گیرند و آن به این صورت است که با تکرار بیش از حد کلمات به طور عمدی سعی در بر هم زدن تعادل و در نتیجه فریب موتورهای جست‌وجو دارند. آنها سعی دارند که با افزایش عامل تکرار، در رتبه بالاتری قرار بگیرند. موتورهای جست‌وجو راه‌های متنوعی برای جلوگیری از Spamming دارند و در این راه از گزارش‌های کاربران خود نیز بهره می‌برند.

عوامل خارج از صفحه
موتورهای جست‌وجوی پیمایشی اکنون تجربه فراوانی در رابطه با وب‌مسترهایی دارند که صفحات خود را برای کسب رتبه بهتر مرتباً بازنویسی می‌کنند. بعضی از وب مسترهای خبره حتی ممکن است به سمت روش‌هایی مانند مهندسی معکوس برای کشف چگونگی روش‌های مکان-تکرار بروند. به همین دلیل، تمامی موتورهای جست‌وجوی معروف از روشهای امتیازبندی «خارج از صفحه» استفاده می‌کنند. عوامل خارج از صفحه عواملی هستند که از تیررس وب‌مسترها خارجند و آنها نمی‌توانند در آن دخالت کنند و مسأله مهم در آن تحلیل ارتباطات و لینک‌ها است. بوسیله تجزیه صفحات، موتورهای جست‌وجو لینک‌ها را بررسی کرده و از محبوبیت آنها می‌فهمند که آن صفحات مهم بوده و شایسته ترفیع رتبه هستند. به علاوه تکنیک‌های پیشرفته به گونه‌ای است که از ایجاد لینک‌های مصنوعی توسط وب‌مسترها برای فریب موتورهای جست‌وجو جلوگیری می‌نماید. علاوه بر آن موتورهای جست‌وجو بررسی می‌کنند که کدام صفحه توسط یک کاربر که کلمه‌ای را جست‌وجو کرده انتخاب می‌شود و سپس با توجه به تعداد انتخاب‌ها، رتبه صفحه مورد نظر را تعیین کرده و مقام آن را در نتیجه جست‌وجو جابه‌جا می‌نمایند.
توضیح: برای برخی از واژگان بیگانه معادل‌هایی در نظر گرفته شده که ممکن است منظور را به طور کامل بیان نکند. این کاستی را بر من ببخشید.



دنبالک ها: منبع ،