مقدمه
خزش (Crawling) فرآیندی است که توسط آن گوگل صفحات جدید و بهروز شده وب را برای افزودن به فهرست بزرگ خود کشف و درخواست میکند. این فرآیند اولین و حیاتیترین گام در عملکرد موتور جستجوی گوگل است و به آن اجازه میدهد تا وب را مانند یک کتابخانه در حال رشد و بدون سیستم بایگانی مرکزی مدیریت کند.
🤖 Googlebot: خزندهی اصلی گوگل
نرمافزار خودکار گوگل که مسئول این کار است، خزنده وب (Web Crawler) یا به طور خاص Googlebot نامیده میشود. Googlebot مانند یک مرورگر وب، صفحات را مشاهده کرده و لینکهای موجود در آنها را دنبال میکند و دادهها را به سرورهای گوگل بازمیگرداند.
مراحل فرآیند خزش (Crawling)
فرآیند خزش گوگل شامل مراحل اصلی زیر است :
- کشف URL (URL Discovery):
- خزش با لیستی از آدرسهای وب (URLها) شروع میشود که از خزشهای قبلی و نقشههای سایت (Sitemaps) ارسالی توسط صاحبان وبسایتها جمعآوری شدهاند.
- همچنین، Googlebot لینکهای موجود در صفحاتی را که بازدید میکند، دنبال میکند تا صفحات جدید دیگری را کشف کند.
- خزش و دریافت محتوا (Fetching and Rendering):
- Googlebot یک درخواست (Request) به سرور وبسایت ارسال میکند و محتوای صفحه (مانند HTML، CSS، JavaScript، تصاویر و ویدئوها) را دریافت میکند.
- سپس، سیستمهای گوگل محتوای صفحه را دقیقاً مانند یک مرورگر (با استفاده از آخرین نسخه مرورگر Chromium) رندر (Render) میکنند تا تمام محتوایی که کاربر نهایی میبیند، از جمله محتوایی که توسط جاوا اسکریپت تولید شده است، را درک کند.
- مدیریت خزش (Crawl Management):
- Googlebot از یک فرآیند الگوریتمی برای تعیین اینکه کدام سایتها را باید بخزد، هر چند وقت یکبار باید یک سایت یا صفحه را بخزد و چند صفحه را از یک سایت دریافت کند، استفاده میکند.
- این فرآیند به عواملی مانند رتبه صفحه (PageRank)، میزان بهروزرسانی محتوا، و ظرفیت سرور وبسایت بستگی دارد تا از فشار بیش از حد به وبسایتها جلوگیری کند.
💵بودجه خزش (Crawl Budget) و اهمیت آن
بودجه خزش به تعداد صفحاتی اشاره دارد که گوگلبات در یک بازه زمانی مشخص تمایل دارد در وبسایت شما بخزد و بررسی کند. این مفهوم به ویژه برای سایتهای بزرگ با هزاران صفحه بسیار مهم است.
- اولویتبندی: اگر سایت شما صفحات زیادی داشته باشد و بودجه خزش محدودی در اختیار داشته باشید، گوگلبات ممکن است نتواند تمام صفحات جدید یا بهروز شده را به موقع بخزد و ایندکس کند.
- عوامل مؤثر بر بودجه خزش:
- سلامت سایت: خطاهای زیاد سرور (کدهای ۵xx) یا خطاهای صفحه (کدهای ۴xx) باعث هدر رفتن بودجه خزش میشوند.
- سرعت بارگذاری صفحه (Page Speed): سایتهای کند، بودجه بیشتری را از کرالرها تلف میکنند.
- کیفیت محتوا: صفحات با کیفیت پایین یا محتوای تکراری، بودجه خزش را به صفحات کماهمیت اختصاص میدهند.
- بهینهسازی بودجه: با مسدود کردن خزش صفحات کماهمیت (مانند صفحات لاگین، فیلترها، یا پارامترهای URL زائد) از طریق فایل robots.txt، میتوانید بودجه خزش را روی صفحات حیاتی متمرکز کنید.
📌 تفاوت خزش (Crawling) و فهرستبندی (Indexing)
اغلب این دو اصطلاح به جای یکدیگر استفاده میشوند، اما متفاوتاند:
- خزش (Crawling): فرآیند کشف و دانلود محتوای صفحات وب.
- فهرستبندی (Indexing): فرآیند تجزیه و تحلیل متن، تصاویر، و ویدئوهای صفحه دانلود شده و ذخیره آن اطلاعات در فهرست گوگل (Google Index) که یک پایگاه داده عظیم است. این فهرست مانند نمایه پشت یک کتاب عمل میکند. تنها صفحاتی که با موفقیت فهرستبندی شدهاند، میتوانند در نتایج جستجو ظاهر شوند.
🛠️ تأثیر بر سئو (SEO)
به عنوان مالک وبسایت، میتوانید با استفاده از ابزارهایی، فرآیند خزش را برای سایت خود بهینه کنید:
- فایل robots.txt: یک فایل متنی در ریشه وبسایت شما که به خزندههای موتورهای جستجو میگوید که کدام بخشهای سایت را میتوانند یا نمیتوانند درخواست کنند.
- نقشه سایت (Sitemap): لیستی از URLهای مهم وبسایت شما که به گوگل کمک میکند صفحات جدید یا بهروز شده را سریعتر و کاملتر پیدا کند.
- لینکهای داخلی و خارجی با کیفیت: به Googlebot کمک میکنند تا ساختار سایت شما را بهتر درک کرده و صفحات شما را کشف کند.