در دنیای امروز که جستجو در گوگل تبدیل به اولین قدم برای رسیدن به هر اطلاعاتی شده است اگر سایت شما در گوگل ایندکس نشود عملاً انگار اصلاً وجود ندارد. ایندکس شدن صفحات اولین و پایه ای ترین قدم در سئو بوده از این رو سئو۱۱ در این مقاله جواب این سوال که تفاوت Crawl و Index در چیست؟ را می دهد تا شما را در رتبه گرفتن سایتتان یاری نماید. بدانید که بدون ایندکس شدن صفحات سایت گوگل هیچ تصوری از وجود و محتوای سایت شما نداشته و نمی تواند آن را در نتایج جستجو نمایش دهد.
اگر محتوای ارزشمندی تولید کرده اید اما در نتایج گوگل نمایش داده نمی شود دلیل اصلی آن به دو مفهوم کلیدی Crawling و Indexing برمی گردد که این دو فرآیند پایه و اساس دیده شدن وب سایت شما در نتایج جستجو هستند. درک دقیق تفاوت Crawl و Index و مدیریت صحیح این دو فرآیند نه تنها به سرعت ایندکس شدن صفحات کمک می کند بلکه روی رتبه بندی یا Ranking سایت شما نیز تأثیر مستقیم خواهد داشت.
برای اینکه سایت شما در SERP گوگل قابل مشاهده باشد در قدم اول باید سئو وب سایت خود را بهبود ببخشید و مطمئن شوید که صفحات شما برای خزنده های گوگل قابل دسترس و فهرست بندی باشند.
Crawling چیست؟
فرآیند دیده شدن سایت شما در گوگل با خزش یا کراول (Crawling) شروع می شود. خزش فرآیندی است که در آن ربات های موتورهای جستجو مانندGooglebot صفحات وب را کشف و بررسی کرده و این ربات ها همانند عنکبوت هایی در تار اینترنت حرکت و صفحات جدید را شناسایی می کنند.
خزیدن فرآیندی است که توسط خزنده های وب موتور جستجوگر برای بازدید و دانلود یک صفحه و استخراج لینک های آن به منظور کشف صفحات اضافه شده استفاده می شود. خزش اولین مرحله از فرآیند سئو است که مستقیماً بر ایندکس و رتبه بندی سایت در نتایج جستجو تأثیر می گذارد. گوگل با خزش صفحات محتوای سایت شما را بررسی می کند تا بفهمد موضوع صفحه درباره چیست و همچنین صفحات جدید سایت شما را از طریق لینک ها یا نقشه سایت کشف می نماید.
معرفی ربات های خزنده
Googlebot نام خزنده ی اصلی گوگل است که این ربات به صورت مداوم در حال بررسی اینترنت بوده تا صفحات جدید را کشف و اطلاعات جدیدتر را در پایگاه داده اش ثبت نماید. خزنده ها که با نام های ربات خزنده وب کراولر یا عنکبوت (Spider) نیز شناخته می شوند برنامه های نرم افزاری هستند که این کار را انجام می دهند. توجه داشته باشید که هر موتور جستجو خزنده های مخصوص به خود را دارد.
- گوگل بات (Googlebot) برای گوگل
- بینگ بات (Bingbot) برای موتور جستجوی بینگ
- یاندکس (Yandex) برای یاندکس
خزنده ها اطلاعاتی مانند متن صفحات تگ های HTML تصاویر لینک ها و متادیتا را جمع آوری می کنند.
نحوه کار Crawl
خزنده ها قبل از هر چیزی فایل robots.txt سایت ها را دانلود می کنند که این فایل حاوی قوانینی است که مشخص می کند موتورهای جستجو مجاز به خزش کدام صفحات هستند. کراولرها از یک لیست URL که ممکن است از نقشه های سایت (Sitemaps) یا لینک های موجود در صفحات دیگر باشد شروع و خزنده ها صفحات جدید را با خزیدن مجدد در صفحاتی که آن ها را می شناخته سپس استخراج لینک ها برای پیدا کردن صفحات جدید کشف می کنند و در مرحله بعد کراولرها صفحه را از نظر تکنیکال HTML CSS و جاوا اسکریپت پردازش و بررسی می کنند و این کار برای این است که کدها در مرورگر حالت بصری بگیرند.
پس از رندر اطلاعاتی که توسط خزنده ها جمع آوری شده برای مرحله بعدی یعنی Indexing آماده می شوند.
Indexing چیست؟
پس از موفقیت آمیز بودن فرآیند خزش نوبت به ایندکس گذاری یا Indexing می رسد. ایندکسینگ مرحله ای است که محتوای صفحات بررسی شده در پایگاه داده موتور جستجو ذخیره می شود و اگر صفحه مورد نظر شما مانعی نداشته باشد گوگل محتوای آن صفحه را بررسی کرده و در پایگاه داده خودش ثبت می کند که این ثبت شدن همان چیزی است که به آن ایندکس شدن می گوییم.
تنها صفحاتی که ایندکس می شوند شانس نمایش در نتایج جستجو را دارند. ایندکس کردن به عمل ذخیره سازی و سازمان دهی اطلاعات داخل صفحه می گویند که توسط کراولرها بررسی شده اند.
فرآیند ۴ مرحله ای گوگل Crawl > Render > Index > Rank
بر اساس مستندات رسمی گوگل برای نمایش هر صفحه در نتایج جستجو چهار مرحله اصلی طی می شود:
- Crawling یا خزیدن که ربات های گوگل صفحات جدید را کشف می کنند.
- Render یا رندر که صفحه از نظر تکنیکال HTML CSS JavaScript بررسی و پردازش می شود.
- Indexing یا ایندکس که محتوای صفحه ذخیره و طبقه بندی می شود.
- Ranking یا رتبه بندی که گوگل با الگوریتم های خود جایگاه صفحه را در نتایج مشخص می کند.
برای اینکه محتوای شما توسط کاربران پیدا شود ابتدا باید مطمئن شوید که برای خزنده های گوگل قابل دسترسی و فهرست بندی باشد در غیر اینصورت از نتایج گوگل نامرئی خواهید شد.
تفاوت Index و Rank
بسیاری از کسب وکارها تصور می کنند صرفاً با ایندکس شدن در گوگل در نتایج هم رتبه می گیرند اما این فقط نیمی از مسیر است و ایندکس شدن یعنی گوگل صفحه شما را شناسایی کرده و در دیتابیس خود ثبت نماید اما رتبه بندی یا Ranking به این معنی است که صفحه شما در چه جایگاهی از نتایج جستجو نمایش داده می شود که رتبه بندی کاملاً وابسته به عوامل سئویی دیگر مانند کیفیت محتوا بک لینک ها تجربه کاربری و غیره است.
پس از ایندکس شدن صفحه گوگل تصمیم می گیرد که چطور باید در نتایج جستجو دیده شود گوگل بر اساس عوامل مختلف تصمیم می گیرد که در هر جستجو چه کلمات کلیدی و رتبه ای به صفحه شما تعلق خواهد گرفت.
چرا صفحات ایندکس نمی شوند؟
اگر صفحات شما در نتایج جستجو ظاهر نمی شوند لزوماً به این معنی نیست که کراولرها صفحه را پیدا نکرده اند و ممکن است یک صفحه خزیده شود اما به دلایل مختلف ایندکس نشود.
مدیریت فایل robots.txt
یکی از متداول ترین دلایل ایندکس نشدن محدودیت هایی است که ناآگاهانه در فایل robots.txt اعمال شده اند این فایل مشخص می کند که Googlebot اجازه دارد کدام بخش های سایت شما راcrawl و کدام بخش ها را کراول نکرده است.
در مشاوره های مختلف سئو ۱۱ عنوان می دارد که پیکربندی اشتباه فایل robots.txt اگر به اشتباه نوشته شود می تواند کل سایت شما را از دید گوگل مخفی کرده و ورودی ارگانیک را به صفر برساند و اگر دسترسی خزنده گوگل توسط فایل robots.txt از دسترسی به صفحه منع شود خطای Blocked by robots.txt رخ خواهد داد.
دستور اشتباه رایج Disallowبه تمام ربات ها می گوید که کل سایت را خزش نکنند در نتیجه هیچ صفحه ای ایندکس نمی شود و اگر با خطای Pages With Errors Have Not Been Indexed مواجه شدید یکی از دلایل آن می تواند بلاک شدن توسط فایل robots.txt باشد.
تگ noindex و خطاهای متاتگ
تگ HTML noindex به گوگل اعلام می کند که آن صفحه را ایندکس نکند و این تگ ممکن است به صورت دستی یا توسط افزونه های سئو در وردپرس فعال شده باشد.
اگر در سورس صفحه این خط را دیدید صفحه ایندکس نخواهد شد ۲۰ < meta name = “robots” content = “noindex, nofollow” >
این تگ صفحه را از ایندکس خارج که وجود آن یکی از دلایل رایج خطای Excluded by “noindex” tag است و برای رفع این مشکل باید تگ noindex را حذف کنیم.
صفحات یتیم Orphan Pages
صفحه یتیم به صفحه ای گفته می شود که هیچ لینک داخلی از صفحات دیگر سایت به آن داده نشده و این صفحات از دید گوگل پنهان می مانند چون هیچ راه مستقیمی برای خزیدن به آن ها وجود ندارد و Googlebot آن ها را کشف نمی کند مگر اینکه به صورت مستقیم به آن ها لینک داده شده باشد.
اگر لینک های داخلی به یک صفحه خاص همگی دارای ویژگی rel=nofollow باشند گوگل به صورت پیش فرض این لینک ها را دنبال نمی کند و در نتیجه ممکن است به آن صفحه دسترسی نداشته باشد.
لینک سازی داخلی قوی به گوگل کمک می کند تا صفحات شما را راحت تر پیدا کند و نرخ Crawl را افزایش می دهد.
محتوای تکراری و کم ارزش Thin Content
گوگل به شدت نسبت به محتوای تکراری یا Duplicate Content یا حتی مشابه بیش از حد حساس بوده و محتوای تکراری یکی از مشکلات رایج در Crawling و Indexing است که گوگل نمی داند کدام نسخه را ایندکس کند.
صفحات Thin Content صفحاتی هستند که محتوای بسیار کمی دارند یعنی کمتر از ۳۰۰ کلمه اطلاعات جدید یا مفیدی ارائه نمی دهند و ارزش افزوده ای برای کاربر ایجاد نمی کنند. گوگل به صراحت در مستندات راهنمای کیفیت محتوا اعلام کرده است صفحاتی که محتوای بسیار کمی دارند یا تکراری هستند ممکن است ایندکس نشوند یا رتبه نگیرند.
اگر محتوای صفحه تان تکراری بی ارزش یا ضعیف باشد گوگل ممکن است تصمیم بگیرد آن را ایندکس نکند. وجود صفحات Thin Content و Duplicate Content باعث اتلاف بودجه خزش خواهد شد.
سئو ۱۱ پیشنهاد می دهد برای محتوای تکراری باید از تگ کنونیکال استفاده شود تا نسخه اصلی به گوگل اعلام یا محتوای تکراری بازنویسی شود.
خطاهای سرور۵xx و کندی سرعت سایت
خطاهای سرور مانند خطای ۵xx باعث مسدود شدن ربات ها می شود و Crawl را مختل می نماید. سرعت بارگذاری سایت یکی دیگر از فاکتورهای مهم در توانایی خزش خزنده های موتورهای جستجو است. سایت های کند باعث هدر رفتن بودجه خزش Crawl Budget می شوند. اگر سرور شما سریعا به درخواست ربات های خزنده واکنش دهد ربات ها می توانند صفحات بیشتری را خزش و بررسی کنند.
راهکار سئو۱۱ برای افزایش سرعت لود صفحات خزش بیشتر در زمان کمتر است که راهکارهای افزایش سرعت شامل استفاده از کش مرورگر فشرده سازی تصاویر و استفاده از CDN می باشد.
مدیریت Crawl Budget بودجه خزش برای موفقیت
نمی توانیم از ایندکس بدون Crawl Budget صحبت کنیم چرا که یکی از عوامل مهم در سئو تکنیکال برای سایت های بزرگ است.
Crawl Budget چیست؟
بودجه خزش به تعداد URLهایی از وب سایت شما اشاره دارد که موتورهای جستجویی مانند گوگل در یک بازه زمانی مشخص قادر به بررسی Crawl آن ها هستند و این بودجه مقدار منابعی است که گوگل برای خزش در سایت شما صرف می کند.
Crawl Budget شامل دو عامل اصلی است: محدودیت سرعت خزش که سقف مجاز خزش همزمان برای جلوگیری از فشار به سرور است و اگر سرور سایت عملکرد کندی داشته باشد نرخ خزیدن کاهش می یابد.
تقاضای خزش میزان تقاضای گوگل برای خزش سایت است که به تعداد صفحات سایت میزان به روز رسانی یا انتشار مطالب جدید و همچنین محبوبیت صفحات بستگی دارد.
اگر تعداد صفحاتی که دارید از Crawl Budget شما بیشتر شود وب سایت شما صفحاتی خواهد داشت که ایندکس نمی شوند. مدیریت صحیح بودجه خزش باعث می شود صفحات مهم سریع تر و مؤثرتر ایندکس شوند.
تفاوت Crawl Budget و Index Budget
هرچند Crawl Budget و Index Budget مفاهیمی نزدیک به هم هستند اما تفاوت کلیدی دارند.Crawl Budget مربوط به تعداد صفحاتی است که گوگل می تواند در مدت زمان مشخصی از سایت شما بازدید و بررسی کند در حالی که Index Budget به تعداد صفحاتی اشاره دارد که پس از خزیدن واجد شرایط ورود به نتایج جستجو تشخیص داده می شوند و به بیان ساده تر خزیدن مقدمه ای بر ایندکس شدن است اما خزیده شدن یک صفحه به معنای ایندکس شدن آن نیست.
نشانه های هدر رفتن Crawl Budget
هدر رفتن بودجه خزیدن به این معناست که ربات های گوگل زمان و منابع محدودی که برای بررسی سایت شما اختصاص داده اند را صرف صفحات بی اهمیت یا تکراری می کنند.
ایندکس نشدن صفحات مهم در Search Console صفحاتی که وضعیت آن ها “Discovered – Currently not indexed” یا “Crawled – Not indexed” است.
وجود تعداد زیادی URL تکراری و صفحات کم ارزش و صفحاتی که محتواهای یکسانی دارند.
خطاهای متعدد در فایل Crawl Stats وجود تعداد زیادی خطای۴۰۴ یا ۵۰۰۷۵.
ضعف در ساختار لینک سازی داخلی و ریدایرکت های بیهوده و غیر ضروری.
راهکارهای بهینه سازی Crawl Budget
برای بهینه سازی بودجه خزش باید اطمینان حاصل کنید که Googlebot زمان و منابع خود را روی صفحات مهم و با ارزش صرف می کند.
سرعت سرور و مدت زمان بارگذاری صفحات شما به صورت مستقیم بر روی Crawl Budget تاثیر می گذارد.
تنظیم هوشمندانهی فایلrobots.txt به گوگل می گوید که کدام صفحات را نباید خز کند و این کار منابع خزش را برای صفحات مهم آزاد نگه می دارد.
حذف صفحات بی کیفیت یا تکراری که وجود صفحات Thin Content و Duplicate Content باعث اتلاف بودجه خزش خواهد شد.
داشتن sitemap بهینه که فقط شامل صفحات مهم و قابل ایندکس است باعث هدایت درست خزنده های گوگل می شود.
ربات های گوگل صفحاتی با بک لینک ها و لینک های داخلی بیشتر را در اولیت خزش قرار می دهند.
برای مدیریت حرفه ای Crawl Budget سایتتان و اطمینان از ایندکس شدن تمام صفحات کلیدی همین امروز با سئو۱۱ تماس بگیرید.
ابزارهای ضروری برای تشخیص مشکلات Crawl و Index
برای بررسی و رفع مشکلات خزش و ایندکس بهترین و دقیق ترین ابزار سرچ کنسول گوگل Google Search Console است.
Google Search Console
پس از ثبت دامنه در سرچ کنسول می توانید با استفاده از ابزارهای آن وضعیت ایندکس سایت را بررسی کنید.
ابزار URL Inspection دقیق ترین و حرفه ایترین ابزار برای بررسی وضعیت ایندکس یک صفحه خاص است که این ابزار به شما اجازه می دهد وضعیت یک آدرس خاص را بررسی کنید و ببینید آیا Googlebot توانسته آن را بخزد و ایندکس کند یا نه. URL Inspection اطلاعاتی مثل زیر را به شما می دهد:
- آیا URL در گوگل ایندکس شده؟
- آیا Googlebot توانسته صفحه را بخزد؟
- آیا صفحه توسط txt بلاک شده؟
- آیا صفحه تگnoindex دارد؟
اگر صفحه جدیدی منتشر کرده اید می توانید با استفاده از گزینه Request Indexing در ابزار URL Inspection از گوگل درخواست نمایید که صفحه ی شما را سریع تر ایندکس کند البته باید مراقب باشید که این قابلیت را زیاد استفاده نکنید چون ممکن است درخواست ها توسط گوگل نادیده گرفته شوند.
از طریق گزارش Coverage در سرچ کنسول می توانید وضعیت دقیق ایندکس ارورها و صفحات Excluded را مشاهده و رفع کنید این صفحات به ۴ دسته تقسیم می شوند:
- Valid ایندکس شده و بدون مشکل
- Valid with warnings ایندکس شده اما دارای هشدارهای جزئی
- Error ایندکس نشده به دلیل خطای فنی
- Excluded صفحات حذفشده یا بلاک شده
روش سریع تست ایندکس با دستور site
یک روش سریع و عمومی برای بررسی اینکه آیا گوگل صفحات سایت شما را ایندکس کرده یا نه استفاده از عملگر site در جستجوی گوگل است در مرورگر گوگل این دستور را وارد کنید. site:yourdomain.com
با این روش تمام صفحاتی که از دامنه شما ایندکس شده اند نمایش داده می شود البته این روش دقیق نیست و معمولاً فقط برای بررسی کلی و سریع استفاده خواهد شد. اگر نتیجه ای ظاهر نشد آن صفحه هنوز ایندکس نشده است.
ابزارهای تخصصی دیگری نیز برای بررسی وضعیت خزش و ایندکس سایت وجود دارند.
Screaming Frog SEO Spider
این ابزار نرم افزاری به شما امکان می دهد سایت خود را کراول و صفحاتی که دارای دستور noindex یا بلاک شده توسط robots.txt را شناسایی کنید.
Ahrefs/Semrush
این ابزارها در بخش Site Audit گزارش هایی از صفحات ایندکس نشده صفحات یتیم و سلامت کلی سایت ارائه می دهند و برای تحلیل crawl budget نیز کاربرد دارند.
استراتژی های تضمینی برای ایندکس سریع و بهینه شدن صفحات
برای اینکه ایندکس سایت در گوگل سریع تر عمیق تر و مؤثرتر انجام شود باید استراتژی های زیر را به کار ببندید.
قدرت لینک سازی داخلی و خارجی بک لینک
لینک سازی داخلی از مهم ترین عوامل در افزایش نرخ Crawl و بهبود ایندکس است که هر صفحهی جدید باید حداقل از یک یا چند صفحه ی دیگر در سایت لینک دریافت کند پس با استفاده از صفحات قدرتمند سایتتان به صفحات جدید لینک دهید این کار به گوگل سیگنال می دهد که این صفحه اهمیت دارد و باید ایندکس شود.
بک لینک ها مانند دعوت نامه ای رسمی برای Googlebot عمل می کنند تا صفحه شما را سریع تر خزش و ایندکس کند. زمانی که صفحه ای از سایت شما از یک منبع خارجی معتبر مانند ویکیپدیا بکلینک دریافت می کند گوگل آن را یک سیگنال مثبت برای خزش و ایندکس در نظر می گیرد.
حتی یک لینک از یک سایت معتبر می تواند ایندکس صفحه را در کمتر از یک روز انجام دهد. بک لینک ها باعث افزایش بودجه خزش می شوند.
ساخت و ثبت نقشه سایت (XML Sitemap)
نقشه سایتsitemap.xml فایلی است که ساختار سایت شما را به زبان قابل فهم برای گوگل ارائه می دهد و راهنمای اصلی ربات ها برای پیدا کردن صفحات مهم سایت است. گوگل با خواندن این نقشه سریع تر صفحات سایت را کشف و بررسی می کند.
حتماً نقشه سایت را درGoogle Search Console ثبت نمایید. اگر صفحات مهم شما در نقشه سایت ثبت نشده باشند احتمال اینکه از نظر گوگل ناشناخته باقی بمانند زیاد است.
تولید محتوای ارزشمند و یونیک
اگر محتوای صفحه تان تکراری بی ارزش یا ضعیف باشد گوگل ممکن است تصمیم بگیرد آن را ایندکس نکند. محتوای یونیک هنوز هم یکی از مهم ترین فاکتورهای ایندکس سریع در گوگل است. همچنین محتوای قدیمی حتی اگر یک بار ایندکس شده باشد در صورت بی توجهی ممکن است از ایندکس خارج شود. به روز رسانی منظم محتوا باعث می شود ربات های گوگل بیشتر به سایت شما سر بزنند و شانس ایندکس بالاتر برود.
گوگل عاشق سایت هاییست که فعال هستند و محتوای جدید منتشر یا آپدیت می کنند سئو ۱۱ عنوان می دارد که اگر می خواهید سریع در گوگل رتبه بگیرید بهترین راهکار تولید محتوای مفصل و باکیفیت است.
بهبود ساختارURL و Schema Markup
ساختار URL طراحی تجربه کاربری UX و مسیریابی صحیح صفحات در اولویت Crawl و Index قرار دارند. ساختار URL باید کوتاه معنی دار و توصیفی باشد. URLهای پیچیده یا شامل اعداد بی معنی معمولاً کمتر ایندکس می شوند.
Schema Markup نوعی داده ی ساخت یافته است که به گوگل کمک می کند مفهوم محتوای شما را بهتر درک نمایید. استفاده از اسکیمای درست می تواند باعث شود صفحه شما سریع تر ایندکس گردد.
همانطور که مشاهده کردید Crawling و Indexing دو مرحله مجزا اما حیاتی در سئو هستند. خزش یا Crawling تنها فرآیند کشف و جمع آوری اطلاعات است اما ایندکس یا Indexing فرآیند ذخیره سازی و آماده سازی آن محتوا برای نمایش در نتایج گوگل می باشد.
اگر سایت یا صفحات شما ایندکس نشده اند عملاً برای گوگل وجود خارجی ندارند. اطمینان از ایندکس سایت در گوگل نیازمند مدیریت فنی دقیق فایل robots.txt تگ های noindex و بودجه خزش است.
برای اطمینان از اینکه صفحات شما به سرعت در گوگل دیده شده و رتبه بگیرند لازم است با ابزار URL Inspection در سرچ کنسول گوگل وضعیت ایندکس صفحات مهم را به صورت مداوم بررسی کنید. بودجه خزش را بهینه مدیریت کرده تا Googlebot وقت خود را صرف صفحات کم ارزش نکند. لینک سازی خارجی و داخلی مؤثر داشته باشید تا صفحات جدید سریع تر کشف شوند.
آیا می خواهید سایتتان با کمترین خطای تکنیکال در صدر نتایج گوگل قرار گیرد؟ سئو۱۱ به عنوان متخصص سئو تکنیکال آماده است تا با بررسی کامل Crawl Budget و خطاهای Index سایت شما را بهینه سازی کند. برای دریافت مشاوره و شروع همکاری همین حالا با سئو۱۱ تماس بگیرید.
در مسیر پر پیچ و خم سئو و ایندکس سایت اگر نیاز به یک نقشه راه دقیق و کارآمد دارید خدمات سئو تخصصی سئو۱۱ بهترین انتخاب برای شماست.


