کلاهبرداری با گوگل‌ بات (خزنده‌ های جعلی، سوء استفاده از بات‌ ها و روش‌ های محافظت از سایت)

کلاهبرداری با گوگل‌ بات (خزنده‌ های جعلی، سوء استفاده از بات‌ ها و روش‌ های محافظت از سایت)

برای دوستات هم بفرست

فهرست مطالب

چقدر زمان میبره؟

۵۴۷
۶۳۷۸۵
کاراکتر
۶دقیقه
زمان تقریبی

یاد بگیرید گوگل بات چطور سایت شما رو میخزه، رندر میکنه و ایندکس میکنه. با همه نوع خزنده های گوگل آشنا میشید، میفهمید crawl budget چطور کار میکنه و چه اصلاحات فنی ای باعث میشه دیده شدن سایتتون بهتر بشه. در ادامه همراه با منتور سئو جلال ترابی باشید.

کلاهبرداری با گوگل بات زمانی اتفاق میفته که بات های مخرب خودشون رو جای یکی از خزنده های گوگل جا میزنن تا از قوانین امنیتی سایت رد بشن و نسبت به ترافیک معمولی، دسترسی خیلی بازتری برای خزیدن و اسکرپ محتوا داشته باشن.

از اینجا به بعد میتونن سرور رو تحت فشار بذارن، محتوای سایت رو کپی کنن و داده های مربوط به crawl رو به هم بریزن. نتیجه اش میشه مشکلات عملکردی و داده های اشتباه، در حالی که همه چیز ظاهرا کاملا قانونی و طبیعی به نظر میاد.

اگه جلوی این خزیدن های جعلی گرفته نشه، کم کم عملکرد سایت افت میکنه، ریسک ها بیشتر میشن و داده هایی که برای تصمیم های مهم سئو بهشون تکیه میکنید کاملا گمراه کننده میشن. اینجا توضیح میدیم صاحب های سایت چطور میتونن گوگل بات های جعلی رو شناسایی کنن، صحتشون رو بررسی کنن و مسدودشون کنن، بدون اینکه ترافیک واقعی موتور جستجو آسیب ببینه. برای اطلاعات و راهنمایی بیشتر میتونی از مشاوره سئو با جلال ترابی هم کمک بگیری و همچنین میتونی با آموزش سئو، به صورت کاملا حرفه ای اون رو یاد بگیری.

برای دنبال کردن مهم ترین مقالات، کافیه موارد رو به رو را دنبال کنی: آموزش سئومقالات منابع تخصصی سئو

📢 برای دریافت مشاوره و منتورینگ سئو میتونی با شماره زیر در تماس باشی یا درخواست خودت رو از طریق صفحات زیر ثبت کنی.

👈🏻 شماره های تماس : ۰۹۱۹۰۷۲۳۲۶۹ و ۰۹۱۲۰۷۲۳۲۸۶ 

کلاهبرداری با گوگل بات چیست؟

کلاهبرداری با گوگل بات که با اسم ترافیک جعلی گوگل بات هم شناخته میشه، یه نوع سوءاستفاده از بات هاست که توش یک خزنده خودش رو به جای بات ایندکس کننده گوگل جا میزنه.

گوگل بات چیست؟

مهاجم این کار رو با جعل کردن user agent گوگل بات انجام میده. user agent همون متن کوتاهیه که هر مرورگر یا بات موقع درخواست به سرور میفرسته تا بگه کیه. تو این حالت، بات موقع درخواست صفحات سایت شما، خودش رو گوگل بات معرفی میکنه.

چرا جعل گوگل بات کار راحتیه؟

از اونجایی که این شناسه فقط یه تکه متنه و هیچ تایید هویت امنی پشتش نیست، جعل کردنش خیلی راحته. خیلی از ابزارهای مخرب دقیقا همون user agent رسمی گوگل بات رو کپی میکنن و باعث میشن درخواست هاشون کاملا قانونی به نظر برسه، در حالی که اصلا واقعی نیستن. اینجا سوال اصلی دقیقا همینه که چرا یک بات مخرب باید خودش رو جای گوگل بات جا بزنه؟

انگیزه های رایج برای جعل گوگل بات

مهاجم ها میدونن که گوگل بات معمولا تو سایت ها رفتار ویژه ای میگیره. بیشتر سایت ها به صورت صریح به گوگل بات اجازه میدن همه بخش ها رو بخزه تا صفحاتشون تو نتایج جستجوی گوگل ایندکس بشه.

از اون طرف، خیلی از فایروال ها یا ابزارهای ضد اسکرپ، گوگل بات رو به صورت پیش فرض تو لیست سفید میذارن. همین موضوع باعث میشه وقتی یک بات مخرب خودش رو جای گوگل بات جا میزنه، خیلی راحت از قوانین امنیتی رد بشه و بدون دردسر به بخش هایی دسترسی پیدا کنه که برای بقیه ترافیک ها بسته است.

با جا زدن خودشون به عنوان گوگل بات، کلاهبردارها میتونن خیلی راحت از سدهای امنیتی رد بشن و به محتوا یا بخش هایی از سایت دسترسی پیدا کنن که در حالت عادی مسدود هست. این روش عملا مثل گرفتن بلیط رایگان برای بات مخربه؛ یه کلاهبرداری که از اعتمادی که سایت ها به گوگل بات دارن سوءاستفاده میکنه.

حتی نماینده های گوگل هم به وجود این مشکل اشاره کردن. Martin Splitt که Search Advocate گوگله گفته:

«هر کسی که میگه گوگل بات هست، واقعا گوگل بات نیست.»

اون همچنین اشاره کرده که خیلی از اسکرپرها درخواست هاشون رو طوری میفرستن که وانمود کنن گوگل بات هستن.

اصل ماجرا در کلاهبرداری با گوگل بات

خلاصه اش اینه که کلاهبرداری با گوگل بات کاملا بر پایه سوءاستفاده از اعتماده. مهاجم هویت گوگل بات رو تقلید میکنه تا وارد سایت بشه و معمولا این کار رو به یکی از دلایل زیر انجام میده:

سرقت محتوا و داده

بات های اسکرپر محتوای سایت، اطلاعات قیمت گذاری یا داده های دیگه رو میدزدن. حتی بعضی ابزارهای سئوی شخص ثالث هم از این روش استفاده میکنن تا صفحات رو مثل گوگل ببینن و بررسی کنن محتوا ممکنه تو الگوریتم های رتبه بندی گوگل چه عملکردی داشته باشه، البته نیت اونها معمولا مخرب نیست. ولی مهاجم های واقعی از همین محتوا برای فیشینگ یا سوءاستفاده های دیگه استفاده میکنن.

اسکن سایت برای پیدا کردن حفره های امنیتی

بعضی بات های آلوده به بدافزار خودشون رو جای گوگل بات جا میزنن و صفحات لندینگ، پارامترها یا API های سایت رو میخزن تا دنبال ضعف امنیتی بگردن. چون ظاهر درخواست ها شبیه گوگل بات هست، احتمال اینکه مدیر سایت به این رفتارهای مشکوک توجه کنه خیلی کمتر میشه.

مخفی کردن حملات DDoS یا اسپم

وقتی حجم زیادی ترافیک با user agent مربوط به گوگل بات به سایت ارسال میشه، ماهیت واقعی حمله پنهان میمونه. سروری که تحت فشار قرار گرفته ممکنه جرات نکنه چیزی که شبیه گوگل بات به نظر میاد رو بلاک کنه و همین باعث میشه حمله راحت تر ادامه پیدا کنه.

دور زدن قوانین robots

گوگل بات به قوانین robots.txt احترام میذاره، اما بات جعلی این کار رو نمیکنه. بات مخرب با معرفی خودش به عنوان گوگل بات میتونه محدودیت نرخ خزش رو دور بزنه یا به بخش هایی از سایت دسترسی پیدا کنه که فقط برای گوگل بات باز هستن، مثل صفحاتی که برای بقیه بات ها بسته شدن ولی برای ایندکس گوگل اجازه دسترسی دارن.

گوگل بات جعلی چه آسیبی به سایت میزنه؟

در نگاه اول، برخورد یک گوگل بات جعلی با سایت ممکنه بی ضرر به نظر برسه. بالاخره فقط داره صفحات رو میخزه. اما واقعیت اینه که این بات های قلابی میتونن از مشکلات جزئی عملکردی تا ریسک های جدی امنیت سایبری، دردسرهای بزرگی درست کنن. بیاید دقیق تر بررسی کنم یک گوگل بات جعلی چه آسیب هایی میتونه به سایت بزنه.

فشار روی سرور و از کار افتادن سایت

گوگل بات های جعلی معمولا به crawl-delay پایبند نیستن. یعنی درخواست هاشون رو با سرعتی خیلی بیشتر از گوگل بات واقعی به سایت میفرستن. این حجم بالای خزش میتونه پهنای باند سرور رو مصرف کنه، سرعت سایت رو بیاره پایین یا حتی باعث کرش کردن سایت بشه. نتیجه اش هم تجربه کاربری ضعیف و نارضایتی کاربرهاست.

در شرایط شدیدتر، شرکت میزبان ممکنه به خاطر مصرف بیش از حد منابع، سایت رو موقتا تعلیق کنه، بدون اینکه بدونه عامل اصلی این اتفاق یک بات مخرب بوده. طبق گزارش امنیتی Incapsula، حدود ۵۱ درصد از کل ترافیک وب الان خودکاره و ۳۱ درصد از حملات، جزو تهدیدهای خودکار OWASP محسوب میشن. این یعنی روزبه روز رایج تر میشه که مهاجم ها حمله هایی رو راه بندازن و ول کنن به حال خودش، حمله هایی که به راحتی میتونن سایت رو تحت فشار شدید قرار بدن.

خراب شدن دیتای آنالیتیکس و سردرگمی در سئو

ممکنه توی گزارش ها افزایش ناگهانی بازدید گوگل بات یا الگوهای عجیب خزش ببینید که کاملا شبیه رفتار موتور جستجوی واقعیه. ولی در اصل اینها جعل هستن. یک گوگل بات جعلی ممکنه هزاران بار به یک URL مشخص سر بزنه، سراغ URL های پارامتردار یا فیلترشده ای بره که فکر میکردید با robots.txt مسدودشون کردید، یا در مقیاس بالا باعث خطاهای 4xx و 5xx بشه.

توی ابزارهای آنالیتیکس، این بازدیدها همراه با user agent مربوط به گوگل بات زیر دسته های Organic یا Direct نمایش داده میشن، برای همین معمولا کسی بهشون شک نمیکنه. اما این ترافیک جعلی، شاخص های مهم رو به هم میریزه، مثل:

  1. بازدید صفحات و نرخ پرش که ممکنه یه دفعه بدون هیچ منطق مشخصی بالا یا پایین بره و با الگوی واقعی ترافیک سایت نخونه. تعداد و عمق خزش که ممکنه تو بعضی بخش های سایت بیش از حد زیاد به نظر برسه، مثلا فیلترهای فروشگاه یا URL های جستجوی داخلی، و این تصور رو ایجاد کنه که گوگل بات داره crawl budget رو هدر میده
  2. نرخ خطا توی لاگ های خزش، مثل تعداد بالای soft 404 یا خطاهای سرور که به اسم گوگل ثبت میشن، در حالی که اصلا تقصیر گوگل نیست. این موارد کاملا شبیه مشکلات فنی سئو دیده میشن و باعث میشن تیم سئو سراغ کارهایی بره که اصلا لازم نیست.
  3. مثلا یک گوگل بات جعلی که مدام به یک URL خراب حمله میکنه، ممکنه تیم شما رو مجبور کنه مشکلی رو برطرف کنه که هیچ تاثیری روی گوگل واقعی نداره. یا فکر کنید crawl budget داره روی ناوبری فیلترشده هدر میره، در حالی که گوگل بات واقعی به ندرت به اون صفحات سر میزنه.

حفره های امنیتی و اسپم

کلاهبرداری با گوگل‌ بات (خزنده‌ های جعلی، سوء استفاده از بات‌ ها و روش‌ های محافظت از سایت)

بات های جعلی و مخرب میتونن به صورت مستقیم امنیت سایت رو تهدید کنن. بعضی از این بات ها عملا مثل کرم یا اسکنر عمل میکنن. یعنی سایت رو میخزن تا دنبال نرم افزارهای قدیمی، ضعف های فرم ها یا URL ها، یا صفحه های مدیریتی رایج بگردن.

یک نمونه مستندش کرم MaMa Casper هست که خودش رو جای گوگل بات جا میزد و سایت ها رو برای پیدا کردن کدهای آسیب پذیر Joomla و PHP اسکن میکرد. به محض اینکه یک ضعف امنیتی پیدا میکرد، کد مخرب رو داخل سایت های آلوده تزریق میکرد.

در سال های اخیر هم Google Threat Intelligence Group یا همون GTIG اعلام کرده که مهاجم ها بیشتر دارن از بدافزارهایی استفاده میکنن که کد مخرب خودشون رو به صورت لحظه ای تغییر میدن تا شناسایی شدنشون سخت تر بشه.

بعضی گوگل بات های جعلی هم تمرکزشون روی اسپمه. مثلا حجم زیادی کامنت اسپم یا ارسال فرم انجام میدن، با این تصور که هویت گوگل بات باعث میشه از فیلترهای اسپم رد بشن. یا محتوای سایت رو اسکرپ میکنن تا جای دیگه دوباره منتشرش کنن. مشاوره ساعتی سئو با جلال ترابی بهت کمک میکنه تا بهترین و بیشترین بازدهی رو در مسیر سئو داشته باشی.

برای دنبال کردن مهم ترین مقالات، کافیه موارد رو به رو را دنبال کنی: آموزش سئومقالات منابع تخصصی سئو

خطای تشخیص و به هم ریختن گزارش ها

گوگل بات های جعلی میتونن خطاهای کاذب ایجاد کنن و تحلیل خزش سایت رو کاملا به هم بریزن. یک بات جعلی که به URL های پرخطا سر میزنه ممکنه توی لاگ ها کلی خطای ۵۰۰ ثبت کنه و اینطور به نظر برسه که گوگل داره به مشکل میخوره، در حالی که اصلا اینطور نیست. یا ممکنه یک بخش خاص از سایت رو بیش از حد تحت فشار بذاره، سرعتش رو کم کنه و باعث مشکلات عملکردی بشه.

این شرایط معمولا منجر به اتلاف وقت میشه. مثلا تنظیمات خزش رو تغییر میدید، خطاهایی رو رفع میکنید که فقط توسط بات ها ایجاد شدن، یا دنبال مشکلاتی میگردید که اصلا تاثیری روی ایندکس شدن سایت ندارن. این همه نویز، سیگنال های واقعی رو خفه میکنه.

Martin Splitt اشاره میکنه که بیشتر سایت ها نباید با دیدن خطاها یا رفتارهای غیرعادی خزش، سریع واکنش نشون بدن و هر چیزی که شبیه گوگل بات هست رو بلاک کنن.

اما توصیه اصلی اون کاملا واضحه:

به پاسخ هایی که سرور به گوگل بات داده دقت کنید، مخصوصا وقتی تعداد زیادی خطای ۵۰۰، خطای fetch، timeout، مشکل DNS یا موارد مشابه میبینید.

نکته کلیدی اینجاست:

فرض نکنید هر مشکلی که به اسم گوگل بات میبینید واقعی یا نشونه عملکرد بد سایت شماست. همیشه اول با تست زنده چند صفحه بررسی کنید، بعد سراغ عیب یابی برید.

📢 برای دریافت مشاوره و منتورینگ سئو میتونی با شماره زیر در تماس باشی یا درخواست خودت رو از طریق صفحات زیر ثبت کنی.

👈🏻 شماره های تماس : ۰۹۱۹۰۷۲۳۲۶۹ و ۰۹۱۲۰۷۲۳۲۸۶ 

چطور گوگل بات واقعی رو تشخیص بدیم؟

برای بررسی اینکه یک خزنده واقعا گوگل بات هست یا نه، دو روش اصلی وجود داره: بررسی DNS یا همون Reverse DNS و تطبیق آدرس IP با بازه هایی که خود گوگل اعلام کرده.

بررسی Reverse DNS و تایید FCrDNS

این روش کلاسیک از رکوردهای DNS استفاده میکنه و در دو مرحله هویت بات رو بررسی میکنه: اول reverse lookup و بعد forward lookup. به این روش میگن forward-confirmed reverse DNS یا FCrDNS.

Reverse DNS lookup

اول آدرس IP ای که به سایت شما درخواست زده رو برمیدارید و براش reverse DNS یا PTR lookup انجام میدید. نتیجه این بررسی باید یک hostname باشه. اگه این hostname به گوگل بات.com یا google.com ختم بشه، نشونه خوبیه.

مثلا وقتی IP 66.249.66.1 رو بررسی میکنید، ممکنه به hostname ای مثل crawl-66-249-66-1.گوگل بات.com برسید. تمام گوگل بات های رسمی گوگل اسمشون داخل همین دامنه هاست، حتی زیر دامنه هایی مثل geo.گوگل بات.com که مربوط به خزنده های محلی هست.

Forward DNS lookup

در مرحله بعد، همون hostname ای که گرفتید مثل crawl-66-249-66-1.گوگل بات.com رو با یک ابزار معمولی DNS مثل nslookup یا ابزارهای آنلاین معتبری مثل Dig یا MXToolbox بررسی میکنید. این بررسی باید دوباره به یک IP برگرده.

حالا باید چک کنید این IP دقیقا همون IP اولیه ای باشه که توی لاگ های سایت دیدید.

اگه هم reverse lookup و هم forward lookup به هم بخورن، یعنی IP به اسم گوگل بات برگرده و اون اسم هم دوباره به همون IP اشاره کنه، میتونید مطمئن بشید که این بات واقعا گوگل بات واقعیه.

این بررسی دو مرحله ای باعث میشه یک مهاجم نتونه فقط با ساختن یک reverse DNS جعلی خودش رو جای گوگل جا بزنه. چون برای تایید نهایی، forward lookup هم باید دوباره به همون IP واقعی برگرده تا هویت بات تایید بشه.

بررسی بازه های IP

گوگل از سال ۲۰۲۱ کار تایید هویت رو راحت تر کرد و بازه های IP ای که گوگل بات و بقیه خزنده های گوگل ازشون استفاده میکنن رو به صورت عمومی منتشر کرد.

این یعنی دیگه میتونید کل فرآیند DNS lookup رو کنار بذارید و فقط بررسی کنید IP ای که به سایت درخواست زده جزو IP های خود گوگل هست یا نه. گوگل این اطلاعات رو به صورت فایل JSON منتشر میکنه برای موارد زیر:

  1. گوگل بات و خزنده های عمومی که مسئول ایندکس جستجوی اصلی هستن. خزنده های خاص مثل AdsBot و موارد مشابه fetcher هایی که توسط کاربر فعال میشن، مثل Google Site Verifier یا درخواست های کش AMP همه IP های گوگل، یک لیست جامع از تمام بازه های IP متعلق به گوگل که حتی سرویس هایی مثل App Engine رو هم پوشش میده.
  2. با استفاده از این لیست ها میشه به صورت برنامه نویسی، IP هر درخواست رو با بازه های شناخته شده گوگل مقایسه کرد. اگه IP داخل بازه های گوگل باشه، به احتمال زیاد درخواست واقعی و معتبره. اگه نباشه، خیلی احتمال داره با گوگل بات جعلی طرف باشید.
  3. خیلی از ابزارهای معتبر مثل Cloudflare و فایروال برنامه های وب آمازون یا همون AWS WAF از همین روش استفاده میکنن، چون سرعتش بالاتره. بررسی بازه IP فقط یک تطبیق ساده است، در حالی که reverse DNS lookup باید برای تک تک درخواست ها انجام بشه.

یک نکته مهم درباره IP های گوگل

باید حواستون باشه که لیست IP های گوگل ثابت نیست. گوگل هر از گاهی این فایل های JSON رو به روزرسانی میکنه. به همین خاطر خود گوگل توصیه میکنه اگه قراره به این داده ها تکیه کنید، حتما یک مکانیزم به روزرسانی خودکار براش در نظر بگیرید.

چرا نباید به user agent اکتفا کنیم؟

متن user agent یک روش امن برای شناسایی هویت نیست، برای همین نمیشه بهش به عنوان یک راهکار قابل اعتماد تکیه کرد. بات های مصمم خیلی راحت میتونن user agent رو دقیقا کپی کنن. انگار هر کسی بتونه روی کارت شناساییش بنویسه «گوگل بات» و بدون هیچ بررسی وارد بشه. پس user agent رو فقط به عنوان یک سرنخ اولیه در نظر بگیرید. ولی حتما هویت واقعی رو از طریق DNS یا IP بررسی کنید. هیچ وقت فقط بر اساس متن user agent اجازه دسترسی ندید یا چیزی رو بلاک نکنید.

نقش Google Search Console

Google Search Console به صورت غیرمستقیم میتونه کمک کنه. ابزار URL Inspection و گزارش Crawl Stats داخل سرچ کنسول نشون میدن که گوگل بات واقعی چطور به سایت شما دسترسی پیدا میکنه و صفحات رو بررسی میکنه.

مقایسه Crawl Stats با لاگ سرور

مثلا گزارش Crawl Stats نشون میده گوگل بات دقیقا چه URL هایی رو و چه زمانی بررسی کرده. اگه به گوگل بات جعلی شک دارید، میتونید لاگ های سرور رو با Crawl Stats مقایسه کنید. اگه داخل لاگ ها فعالیتی با نام گوگل بات ببینید که توی Crawl Stats وجود نداره، این یک هشدار جدیه. چون Crawl Stats فقط ترافیک تاییدشده گوگل بات واقعی رو نشون میده.

فقط یادتون باشه ابزارهای Search Console مستقیما بات جعلی رو شناسایی نمیکنن. این ابزارها فقط کارهایی که گوگل بات واقعی انجام داده رو تایید میکنن. برای پیدا کردن بات های جعلی داخل لاگ ها، همچنان باید از روش های بررسی DNS یا IP که بالاتر گفته شد استفاده کنید.

برای دنبال کردن مهم ترین مقالات، کافیه موارد رو به رو را دنبال کنی: آموزش سئومقالات منابع تخصصی سئو

ابزارهای تشخیص کلاهبرداری با گوگل بات

کلاهبرداری با گوگل‌ بات (خزنده‌ های جعلی، سوء استفاده از بات‌ ها و روش‌ های محافظت از سایت)

بررسی دستی بات ها شاید برای چند درخواست مشکوک شدنی باشه، ولی وقتی حجم ترافیک بالا میره، این کار فوق العاده زمانبر و خسته کننده میشه. خوشبختانه ابزارها و سرویس هایی وجود دارن که با تحلیل ترافیک و لاگ های سایت، گوگل بات جعلی رو شناسایی میکنن.

نرم افزارهای تحلیل لاگ

لازم نیست فایل های لاگ رو دستی بررسی کنید. این ابزارها اعتبارسنجی IP رو به صورت خودکار و بر اساس لیست رسمی IP های گوگل انجام میدن. نتیجه اش هم یک گزارش شفافه که مشخص میکنه کدوم ترافیک گوگل بات واقعیه، بدون نیاز به اسکریپت های سفارشی DNS.

Semrush Log File Analyzer

کافیه لاگ های خام سایت رو آپلود کنید تا ابزار Log File Analyzer سمراش تمام فعالیت های گوگل بات رو برجسته کنه. این ابزار برای تحلیل خزش طراحی شده، ولی برای پیدا کردن رفتارهای غیرعادی هم خیلی کاربردیه، مخصوصا وقتی اسم بات های عجیب یا الگوهای ترافیکی غیرمنتظره میبینید.

فایروال و سرویس های امنیتی

فایروال های برنامه وب یا همون WAF و شبکه های توزیع محتوا یا CDN مثل Cloudflare و Akamai ابزارهای تشخیص بات داخلی دارن. این سرویس ها معمولا اولین خط دفاعی شما در برابر گوگل بات جعلی هستن.

مثلا Cloudflare یک سیستم مدیریت بات داره که شامل لیست بات های تاییدشده میشه و خزنده های معتبری مثل گوگل بات و Bingbot رو میشناسه.

این سیستم به صورت خودکار هر چیزی که خودش رو جای گوگل بات جا بزنه ولی نتونه مراحل تایید رو رد کنه، به چالش میکشه یا بلاک میکنه. به همین خاطره که بعضی وقت ها میبینید ترافیکی با نام گوگل بات توسط Cloudflare رد میشه؛ چون به احتمال زیاد اصلا از طرف گوگل نبوده.

Cloudflare بات جعلی رو چطور تشخیص میده؟

Cloudflare برای شناسایی بات های جعلی چند عامل رو بررسی میکنه:

  1. آدرس IP
  2. شماره سیستم خودمختار یا ASN
  3. Reverse DNS
  4. الگوهای رفتاری و امضای ترافیک

به خاطر همین بررسی ها، Cloudflare و WAF های مشابه معمولا برای گوگل بات های جعلی و گاهی حتی ناخواسته برای بات های معتبر، خطای ۴۰۳ یا forbidden برمیگردونن، چون تایید هویتشون ناموفق بوده. منتورینگ سئو با تیم جلال ترابی بهت کمک میکنه تا KPI های دقیق رو مشخص کرده و به هرکدوم به راحتی بررسی.

Akamai هم همین مسیر رو میره؟

مدیریت بات Akamai هم عملکردی شبیه Cloudflare داره. این سرویس بر اساس IP، ASN و امضاهای رفتاری بات رو تایید میکنه و معمولا از قبل طوری تنظیم شده که گوگل بات واقعی رو اجازه بده و نمونه های جعلی رو رد کنه.

یک نکته مهم درباره خطای تشخیص

باید بدونید احتمال خطای تشخیص همیشه وجود داره. مثلا اگه گوگل بات یکدفعه از IP یا مسیر جدیدی استفاده کنه، ممکنه WAF به اشتباه اون رو بلاک کنه. به همین دلیل بهتره به صورت منظم لاگ های فایروال رو بررسی کنید و در صورت نیاز، لیست های مجاز یا allowlist رو به روزرسانی کنید.

مانیتورینگ خزش و هشدارها

کلاهبرداری با گوگل‌ بات (خزنده‌ های جعلی، سوء استفاده از بات‌ ها و روش‌ های محافظت از سایت)

بررسی دستی برای شناسایی و مدیریت مشکلات فعال کمک میکنه، اما محافظت واقعی از سایت با مانیتورینگ مداوم به دست میاد. اینجاست که پلتفرم های SIEM و ابزارهای مانیتورینگ سرور وارد بازی میشن. بیشتر این ابزارها اجازه میدن هشدارهای سفارشی تعریف کنید. مثلا بگید:

«اگه بیشتر از X درخواست در دقیقه با user agent شامل گوگل بات ارسال شد و IP داخل allowlist نبود، هشدار بده.»

این منطق کمک میکنه خیلی سریع بات جعلی رو شناسایی کنید. اگه یک گوگل بات جعلی شروع کنه سایت رو زیر بار درخواست ببره، ظرف چند ثانیه متوجه میشید. پلتفرم هایی که جریان لاگ یا آمار خزش رو رصد میکنن، مثل خیلی از ابزارهایی که بخش قبل گفتم، میتونن در صورت دیدن رفتارهای غیرعادی هشدار بدن، مثل:

  1. افزایش ناگهانی خزش با نام گوگل بات
  2. قطع شدن کامل ترافیک گوگل بات واقعی
  3. خطاهای تکرارشونده که توسط یک خزنده مشکوک ایجاد میشن

نکته مهم اینه که اول باید یک الگوی رفتاری نرمال بسازید. با استفاده از گزارش Crawl Stats گوگل یا لاگ های قدیمی سرور مشخص کنید رفتار طبیعی سایت شما چطوره. بعد از اون، سیستم هشداردهی رو طوری تنظیم کنید که هر چیزی خارج از این الگو رو علامت بزنه.

ابزارهای تکمیلی

علاوه بر ابزارهای سنگین تحلیل و فایروال ها، چند ابزار سبک تر هم هست که داشتنشون بد نیست، مخصوصا برای تیم هایی که به پلتفرم های امنیتی سازمانی دسترسی ندارن یا سایت هایی که فقط به تشخیص ساده نیاز دارن.

البته باید بدونید این ابزارها به قدرت گزینه هایی که قبل تر گفتیم نیستن و کاربردشون هم محدودتره.

Rich Results Test و URL Inspection گوگل

ابزار Rich Results Test و URL Inspection گوگل نشون میدن گوگل بات واقعی یک صفحه مشخص رو چطور رندر میکنه. اما کمکی به شناسایی گوگل بات های جعلی که بقیه بخش های سایت رو میخزن نمیکنن.

📢 برای دریافت مشاوره و منتورینگ سئو میتونی با شماره زیر در تماس باشی یا درخواست خودت رو از طریق صفحات زیر ثبت کنی.

👈🏻 شماره های تماس : ۰۹۱۹۰۷۲۳۲۶۹ و ۰۹۱۲۰۷۲۳۲۸۶ 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

17 − 6 =