کلاهبرداری با گوگل‌ بات (خزنده‌ های جعلی، سوء استفاده از بات‌ ها و روش‌ های محافظت از سایت)

برای دوستات هم بفرست

چقدر زمان میبره؟

۵۴۷

۶۳۷۸۵

کاراکتر

۶دقیقه

زمان تقریبی

یاد بگیرید گوگل بات چطور سایت شما رو میخزه، رندر میکنه و ایندکس میکنه. با همه نوع خزنده های گوگل آشنا میشید، میفهمید crawl budget چطور کار میکنه و چه اصلاحات فنی ای باعث میشه دیده شدن سایتتون بهتر بشه. در ادامه همراه با منتور سئو جلال ترابی باشید.

کلاهبرداری با گوگل بات زمانی اتفاق میفته که بات های مخرب خودشون رو جای یکی از خزنده های گوگل جا میزنن تا از قوانین امنیتی سایت رد بشن و نسبت به ترافیک معمولی، دسترسی خیلی بازتری برای خزیدن و اسکرپ محتوا داشته باشن.

از اینجا به بعد میتونن سرور رو تحت فشار بذارن، محتوای سایت رو کپی کنن و داده های مربوط به crawl رو به هم بریزن. نتیجه اش میشه مشکلات عملکردی و داده های اشتباه، در حالی که همه چیز ظاهرا کاملا قانونی و طبیعی به نظر میاد.

اگه جلوی این خزیدن های جعلی گرفته نشه، کم کم عملکرد سایت افت میکنه، ریسک ها بیشتر میشن و داده هایی که برای تصمیم های مهم سئو بهشون تکیه میکنید کاملا گمراه کننده میشن. اینجا توضیح میدیم صاحب های سایت چطور میتونن گوگل بات های جعلی رو شناسایی کنن، صحتشون رو بررسی کنن و مسدودشون کنن، بدون اینکه ترافیک واقعی موتور جستجو آسیب ببینه. برای اطلاعات و راهنمایی بیشتر میتونی از مشاوره سئو با جلال ترابی هم کمک بگیری و همچنین میتونی با آموزش سئو، به صورت کاملا حرفه ای اون رو یاد بگیری.

برای دنبال کردن مهم ترین مقالات، کافیه موارد رو به رو را دنبال کنی: آموزش سئو – مقالات منابع تخصصی سئو

📢 برای دریافت مشاوره و منتورینگ سئو میتونی با شماره زیر در تماس باشی یا درخواست خودت رو از طریق صفحات زیر ثبت کنی.

👈🏻 شماره های تماس : ۰۹۱۹۰۷۲۳۲۶۹ و ۰۹۱۲۰۷۲۳۲۸۶

کلاهبرداری با گوگل بات چیست؟

کلاهبرداری با گوگل بات که با اسم ترافیک جعلی گوگل بات هم شناخته میشه، یه نوع سوءاستفاده از بات هاست که توش یک خزنده خودش رو به جای بات ایندکس کننده گوگل جا میزنه.

گوگل بات چیست؟

مهاجم این کار رو با جعل کردن user agent گوگل بات انجام میده. user agent همون متن کوتاهیه که هر مرورگر یا بات موقع درخواست به سرور میفرسته تا بگه کیه. تو این حالت، بات موقع درخواست صفحات سایت شما، خودش رو گوگل بات معرفی میکنه.

چرا جعل گوگل بات کار راحتیه؟

از اونجایی که این شناسه فقط یه تکه متنه و هیچ تایید هویت امنی پشتش نیست، جعل کردنش خیلی راحته. خیلی از ابزارهای مخرب دقیقا همون user agent رسمی گوگل بات رو کپی میکنن و باعث میشن درخواست هاشون کاملا قانونی به نظر برسه، در حالی که اصلا واقعی نیستن. اینجا سوال اصلی دقیقا همینه که چرا یک بات مخرب باید خودش رو جای گوگل بات جا بزنه؟

انگیزه های رایج برای جعل گوگل بات

مهاجم ها میدونن که گوگل بات معمولا تو سایت ها رفتار ویژه ای میگیره. بیشتر سایت ها به صورت صریح به گوگل بات اجازه میدن همه بخش ها رو بخزه تا صفحاتشون تو نتایج جستجوی گوگل ایندکس بشه.

از اون طرف، خیلی از فایروال ها یا ابزارهای ضد اسکرپ، گوگل بات رو به صورت پیش فرض تو لیست سفید میذارن. همین موضوع باعث میشه وقتی یک بات مخرب خودش رو جای گوگل بات جا میزنه، خیلی راحت از قوانین امنیتی رد بشه و بدون دردسر به بخش هایی دسترسی پیدا کنه که برای بقیه ترافیک ها بسته است.

با جا زدن خودشون به عنوان گوگل بات، کلاهبردارها میتونن خیلی راحت از سدهای امنیتی رد بشن و به محتوا یا بخش هایی از سایت دسترسی پیدا کنن که در حالت عادی مسدود هست. این روش عملا مثل گرفتن بلیط رایگان برای بات مخربه؛ یه کلاهبرداری که از اعتمادی که سایت ها به گوگل بات دارن سوءاستفاده میکنه.

حتی نماینده های گوگل هم به وجود این مشکل اشاره کردن. Martin Splitt که Search Advocate گوگله گفته:

«هر کسی که میگه گوگل بات هست، واقعا گوگل بات نیست.»

اون همچنین اشاره کرده که خیلی از اسکرپرها درخواست هاشون رو طوری میفرستن که وانمود کنن گوگل بات هستن.

اصل ماجرا در کلاهبرداری با گوگل بات

خلاصه اش اینه که کلاهبرداری با گوگل بات کاملا بر پایه سوءاستفاده از اعتماده. مهاجم هویت گوگل بات رو تقلید میکنه تا وارد سایت بشه و معمولا این کار رو به یکی از دلایل زیر انجام میده:

سرقت محتوا و داده

بات های اسکرپر محتوای سایت، اطلاعات قیمت گذاری یا داده های دیگه رو میدزدن. حتی بعضی ابزارهای سئوی شخص ثالث هم از این روش استفاده میکنن تا صفحات رو مثل گوگل ببینن و بررسی کنن محتوا ممکنه تو الگوریتم های رتبه بندی گوگل چه عملکردی داشته باشه، البته نیت اونها معمولا مخرب نیست. ولی مهاجم های واقعی از همین محتوا برای فیشینگ یا سوءاستفاده های دیگه استفاده میکنن.

اسکن سایت برای پیدا کردن حفره های امنیتی

بعضی بات های آلوده به بدافزار خودشون رو جای گوگل بات جا میزنن و صفحات لندینگ، پارامترها یا API های سایت رو میخزن تا دنبال ضعف امنیتی بگردن. چون ظاهر درخواست ها شبیه گوگل بات هست، احتمال اینکه مدیر سایت به این رفتارهای مشکوک توجه کنه خیلی کمتر میشه.

مخفی کردن حملات DDoS یا اسپم

وقتی حجم زیادی ترافیک با user agent مربوط به گوگل بات به سایت ارسال میشه، ماهیت واقعی حمله پنهان میمونه. سروری که تحت فشار قرار گرفته ممکنه جرات نکنه چیزی که شبیه گوگل بات به نظر میاد رو بلاک کنه و همین باعث میشه حمله راحت تر ادامه پیدا کنه.

دور زدن قوانین robots

گوگل بات به قوانین robots.txt احترام میذاره، اما بات جعلی این کار رو نمیکنه. بات مخرب با معرفی خودش به عنوان گوگل بات میتونه محدودیت نرخ خزش رو دور بزنه یا به بخش هایی از سایت دسترسی پیدا کنه که فقط برای گوگل بات باز هستن، مثل صفحاتی که برای بقیه بات ها بسته شدن ولی برای ایندکس گوگل اجازه دسترسی دارن.

گوگل بات جعلی چه آسیبی به سایت میزنه؟

در نگاه اول، برخورد یک گوگل بات جعلی با سایت ممکنه بی ضرر به نظر برسه. بالاخره فقط داره صفحات رو میخزه. اما واقعیت اینه که این بات های قلابی میتونن از مشکلات جزئی عملکردی تا ریسک های جدی امنیت سایبری، دردسرهای بزرگی درست کنن. بیاید دقیق تر بررسی کنم یک گوگل بات جعلی چه آسیب هایی میتونه به سایت بزنه.

فشار روی سرور و از کار افتادن سایت

گوگل بات های جعلی معمولا به crawl-delay پایبند نیستن. یعنی درخواست هاشون رو با سرعتی خیلی بیشتر از گوگل بات واقعی به سایت میفرستن. این حجم بالای خزش میتونه پهنای باند سرور رو مصرف کنه، سرعت سایت رو بیاره پایین یا حتی باعث کرش کردن سایت بشه. نتیجه اش هم تجربه کاربری ضعیف و نارضایتی کاربرهاست.

در شرایط شدیدتر، شرکت میزبان ممکنه به خاطر مصرف بیش از حد منابع، سایت رو موقتا تعلیق کنه، بدون اینکه بدونه عامل اصلی این اتفاق یک بات مخرب بوده. طبق گزارش امنیتی Incapsula، حدود ۵۱ درصد از کل ترافیک وب الان خودکاره و ۳۱ درصد از حملات، جزو تهدیدهای خودکار OWASP محسوب میشن. این یعنی روزبه روز رایج تر میشه که مهاجم ها حمله هایی رو راه بندازن و ول کنن به حال خودش، حمله هایی که به راحتی میتونن سایت رو تحت فشار شدید قرار بدن.

خراب شدن دیتای آنالیتیکس و سردرگمی در سئو

ممکنه توی گزارش ها افزایش ناگهانی بازدید گوگل بات یا الگوهای عجیب خزش ببینید که کاملا شبیه رفتار موتور جستجوی واقعیه. ولی در اصل اینها جعل هستن. یک گوگل بات جعلی ممکنه هزاران بار به یک URL مشخص سر بزنه، سراغ URL های پارامتردار یا فیلترشده ای بره که فکر میکردید با robots.txt مسدودشون کردید، یا در مقیاس بالا باعث خطاهای 4xx و 5xx بشه.

توی ابزارهای آنالیتیکس، این بازدیدها همراه با user agent مربوط به گوگل بات زیر دسته های Organic یا Direct نمایش داده میشن، برای همین معمولا کسی بهشون شک نمیکنه. اما این ترافیک جعلی، شاخص های مهم رو به هم میریزه، مثل:

بازدید صفحات و نرخ پرش که ممکنه یه دفعه بدون هیچ منطق مشخصی بالا یا پایین بره و با الگوی واقعی ترافیک سایت نخونه. تعداد و عمق خزش که ممکنه تو بعضی بخش های سایت بیش از حد زیاد به نظر برسه، مثلا فیلترهای فروشگاه یا URL های جستجوی داخلی، و این تصور رو ایجاد کنه که گوگل بات داره crawl budget رو هدر میده
نرخ خطا توی لاگ های خزش، مثل تعداد بالای soft 404 یا خطاهای سرور که به اسم گوگل ثبت میشن، در حالی که اصلا تقصیر گوگل نیست. این موارد کاملا شبیه مشکلات فنی سئو دیده میشن و باعث میشن تیم سئو سراغ کارهایی بره که اصلا لازم نیست.
مثلا یک گوگل بات جعلی که مدام به یک URL خراب حمله میکنه، ممکنه تیم شما رو مجبور کنه مشکلی رو برطرف کنه که هیچ تاثیری روی گوگل واقعی نداره. یا فکر کنید crawl budget داره روی ناوبری فیلترشده هدر میره، در حالی که گوگل بات واقعی به ندرت به اون صفحات سر میزنه.

حفره های امنیتی و اسپم

بات های جعلی و مخرب میتونن به صورت مستقیم امنیت سایت رو تهدید کنن. بعضی از این بات ها عملا مثل کرم یا اسکنر عمل میکنن. یعنی سایت رو میخزن تا دنبال نرم افزارهای قدیمی، ضعف های فرم ها یا URL ها، یا صفحه های مدیریتی رایج بگردن.

یک نمونه مستندش کرم MaMa Casper هست که خودش رو جای گوگل بات جا میزد و سایت ها رو برای پیدا کردن کدهای آسیب پذیر Joomla و PHP اسکن میکرد. به محض اینکه یک ضعف امنیتی پیدا میکرد، کد مخرب رو داخل سایت های آلوده تزریق میکرد.

در سال های اخیر هم Google Threat Intelligence Group یا همون GTIG اعلام کرده که مهاجم ها بیشتر دارن از بدافزارهایی استفاده میکنن که کد مخرب خودشون رو به صورت لحظه ای تغییر میدن تا شناسایی شدنشون سخت تر بشه.

بعضی گوگل بات های جعلی هم تمرکزشون روی اسپمه. مثلا حجم زیادی کامنت اسپم یا ارسال فرم انجام میدن، با این تصور که هویت گوگل بات باعث میشه از فیلترهای اسپم رد بشن. یا محتوای سایت رو اسکرپ میکنن تا جای دیگه دوباره منتشرش کنن. مشاوره ساعتی سئو با جلال ترابی بهت کمک میکنه تا بهترین و بیشترین بازدهی رو در مسیر سئو داشته باشی.

برای دنبال کردن مهم ترین مقالات، کافیه موارد رو به رو را دنبال کنی: آموزش سئو – مقالات منابع تخصصی سئو

خطای تشخیص و به هم ریختن گزارش ها

گوگل بات های جعلی میتونن خطاهای کاذب ایجاد کنن و تحلیل خزش سایت رو کاملا به هم بریزن. یک بات جعلی که به URL های پرخطا سر میزنه ممکنه توی لاگ ها کلی خطای ۵۰۰ ثبت کنه و اینطور به نظر برسه که گوگل داره به مشکل میخوره، در حالی که اصلا اینطور نیست. یا ممکنه یک بخش خاص از سایت رو بیش از حد تحت فشار بذاره، سرعتش رو کم کنه و باعث مشکلات عملکردی بشه.

این شرایط معمولا منجر به اتلاف وقت میشه. مثلا تنظیمات خزش رو تغییر میدید، خطاهایی رو رفع میکنید که فقط توسط بات ها ایجاد شدن، یا دنبال مشکلاتی میگردید که اصلا تاثیری روی ایندکس شدن سایت ندارن. این همه نویز، سیگنال های واقعی رو خفه میکنه.

Martin Splitt اشاره میکنه که بیشتر سایت ها نباید با دیدن خطاها یا رفتارهای غیرعادی خزش، سریع واکنش نشون بدن و هر چیزی که شبیه گوگل بات هست رو بلاک کنن.

اما توصیه اصلی اون کاملا واضحه:

به پاسخ هایی که سرور به گوگل بات داده دقت کنید، مخصوصا وقتی تعداد زیادی خطای ۵۰۰، خطای fetch، timeout، مشکل DNS یا موارد مشابه میبینید.

نکته کلیدی اینجاست:

فرض نکنید هر مشکلی که به اسم گوگل بات میبینید واقعی یا نشونه عملکرد بد سایت شماست. همیشه اول با تست زنده چند صفحه بررسی کنید، بعد سراغ عیب یابی برید.

👈🏻 شماره های تماس : ۰۹۱۹۰۷۲۳۲۶۹ و ۰۹۱۲۰۷۲۳۲۸۶

چطور گوگل بات واقعی رو تشخیص بدیم؟

برای بررسی اینکه یک خزنده واقعا گوگل بات هست یا نه، دو روش اصلی وجود داره: بررسی DNS یا همون Reverse DNS و تطبیق آدرس IP با بازه هایی که خود گوگل اعلام کرده.

بررسی Reverse DNS و تایید FCrDNS

این روش کلاسیک از رکوردهای DNS استفاده میکنه و در دو مرحله هویت بات رو بررسی میکنه: اول reverse lookup و بعد forward lookup. به این روش میگن forward-confirmed reverse DNS یا FCrDNS.

Reverse DNS lookup

اول آدرس IP ای که به سایت شما درخواست زده رو برمیدارید و براش reverse DNS یا PTR lookup انجام میدید. نتیجه این بررسی باید یک hostname باشه. اگه این hostname به گوگل بات.com یا google.com ختم بشه، نشونه خوبیه.

مثلا وقتی IP 66.249.66.1 رو بررسی میکنید، ممکنه به hostname ای مثل crawl-66-249-66-1.گوگل بات.com برسید. تمام گوگل بات های رسمی گوگل اسمشون داخل همین دامنه هاست، حتی زیر دامنه هایی مثل geo.گوگل بات.com که مربوط به خزنده های محلی هست.

Forward DNS lookup

در مرحله بعد، همون hostname ای که گرفتید مثل crawl-66-249-66-1.گوگل بات.com رو با یک ابزار معمولی DNS مثل nslookup یا ابزارهای آنلاین معتبری مثل Dig یا MXToolbox بررسی میکنید. این بررسی باید دوباره به یک IP برگرده.

حالا باید چک کنید این IP دقیقا همون IP اولیه ای باشه که توی لاگ های سایت دیدید.

اگه هم reverse lookup و هم forward lookup به هم بخورن، یعنی IP به اسم گوگل بات برگرده و اون اسم هم دوباره به همون IP اشاره کنه، میتونید مطمئن بشید که این بات واقعا گوگل بات واقعیه.

این بررسی دو مرحله ای باعث میشه یک مهاجم نتونه فقط با ساختن یک reverse DNS جعلی خودش رو جای گوگل جا بزنه. چون برای تایید نهایی، forward lookup هم باید دوباره به همون IP واقعی برگرده تا هویت بات تایید بشه.

بررسی بازه های IP

گوگل از سال ۲۰۲۱ کار تایید هویت رو راحت تر کرد و بازه های IP ای که گوگل بات و بقیه خزنده های گوگل ازشون استفاده میکنن رو به صورت عمومی منتشر کرد.

این یعنی دیگه میتونید کل فرآیند DNS lookup رو کنار بذارید و فقط بررسی کنید IP ای که به سایت درخواست زده جزو IP های خود گوگل هست یا نه. گوگل این اطلاعات رو به صورت فایل JSON منتشر میکنه برای موارد زیر:

گوگل بات و خزنده های عمومی که مسئول ایندکس جستجوی اصلی هستن. خزنده های خاص مثل AdsBot و موارد مشابه fetcher هایی که توسط کاربر فعال میشن، مثل Google Site Verifier یا درخواست های کش AMP همه IP های گوگل، یک لیست جامع از تمام بازه های IP متعلق به گوگل که حتی سرویس هایی مثل App Engine رو هم پوشش میده.
با استفاده از این لیست ها میشه به صورت برنامه نویسی، IP هر درخواست رو با بازه های شناخته شده گوگل مقایسه کرد. اگه IP داخل بازه های گوگل باشه، به احتمال زیاد درخواست واقعی و معتبره. اگه نباشه، خیلی احتمال داره با گوگل بات جعلی طرف باشید.
خیلی از ابزارهای معتبر مثل Cloudflare و فایروال برنامه های وب آمازون یا همون AWS WAF از همین روش استفاده میکنن، چون سرعتش بالاتره. بررسی بازه IP فقط یک تطبیق ساده است، در حالی که reverse DNS lookup باید برای تک تک درخواست ها انجام بشه.

یک نکته مهم درباره IP های گوگل

باید حواستون باشه که لیست IP های گوگل ثابت نیست. گوگل هر از گاهی این فایل های JSON رو به روزرسانی میکنه. به همین خاطر خود گوگل توصیه میکنه اگه قراره به این داده ها تکیه کنید، حتما یک مکانیزم به روزرسانی خودکار براش در نظر بگیرید.

چرا نباید به user agent اکتفا کنیم؟

متن user agent یک روش امن برای شناسایی هویت نیست، برای همین نمیشه بهش به عنوان یک راهکار قابل اعتماد تکیه کرد. بات های مصمم خیلی راحت میتونن user agent رو دقیقا کپی کنن. انگار هر کسی بتونه روی کارت شناساییش بنویسه «گوگل بات» و بدون هیچ بررسی وارد بشه. پس user agent رو فقط به عنوان یک سرنخ اولیه در نظر بگیرید. ولی حتما هویت واقعی رو از طریق DNS یا IP بررسی کنید. هیچ وقت فقط بر اساس متن user agent اجازه دسترسی ندید یا چیزی رو بلاک نکنید.

نقش Google Search Console

Google Search Console به صورت غیرمستقیم میتونه کمک کنه. ابزار URL Inspection و گزارش Crawl Stats داخل سرچ کنسول نشون میدن که گوگل بات واقعی چطور به سایت شما دسترسی پیدا میکنه و صفحات رو بررسی میکنه.

مقایسه Crawl Stats با لاگ سرور

مثلا گزارش Crawl Stats نشون میده گوگل بات دقیقا چه URL هایی رو و چه زمانی بررسی کرده. اگه به گوگل بات جعلی شک دارید، میتونید لاگ های سرور رو با Crawl Stats مقایسه کنید. اگه داخل لاگ ها فعالیتی با نام گوگل بات ببینید که توی Crawl Stats وجود نداره، این یک هشدار جدیه. چون Crawl Stats فقط ترافیک تاییدشده گوگل بات واقعی رو نشون میده.

فقط یادتون باشه ابزارهای Search Console مستقیما بات جعلی رو شناسایی نمیکنن. این ابزارها فقط کارهایی که گوگل بات واقعی انجام داده رو تایید میکنن. برای پیدا کردن بات های جعلی داخل لاگ ها، همچنان باید از روش های بررسی DNS یا IP که بالاتر گفته شد استفاده کنید.

برای دنبال کردن مهم ترین مقالات، کافیه موارد رو به رو را دنبال کنی: آموزش سئو – مقالات منابع تخصصی سئو

ابزارهای تشخیص کلاهبرداری با گوگل بات

بررسی دستی بات ها شاید برای چند درخواست مشکوک شدنی باشه، ولی وقتی حجم ترافیک بالا میره، این کار فوق العاده زمانبر و خسته کننده میشه. خوشبختانه ابزارها و سرویس هایی وجود دارن که با تحلیل ترافیک و لاگ های سایت، گوگل بات جعلی رو شناسایی میکنن.

نرم افزارهای تحلیل لاگ

لازم نیست فایل های لاگ رو دستی بررسی کنید. این ابزارها اعتبارسنجی IP رو به صورت خودکار و بر اساس لیست رسمی IP های گوگل انجام میدن. نتیجه اش هم یک گزارش شفافه که مشخص میکنه کدوم ترافیک گوگل بات واقعیه، بدون نیاز به اسکریپت های سفارشی DNS.

Semrush Log File Analyzer

کافیه لاگ های خام سایت رو آپلود کنید تا ابزار Log File Analyzer سمراش تمام فعالیت های گوگل بات رو برجسته کنه. این ابزار برای تحلیل خزش طراحی شده، ولی برای پیدا کردن رفتارهای غیرعادی هم خیلی کاربردیه، مخصوصا وقتی اسم بات های عجیب یا الگوهای ترافیکی غیرمنتظره میبینید.

فایروال و سرویس های امنیتی

فایروال های برنامه وب یا همون WAF و شبکه های توزیع محتوا یا CDN مثل Cloudflare و Akamai ابزارهای تشخیص بات داخلی دارن. این سرویس ها معمولا اولین خط دفاعی شما در برابر گوگل بات جعلی هستن.

مثلا Cloudflare یک سیستم مدیریت بات داره که شامل لیست بات های تاییدشده میشه و خزنده های معتبری مثل گوگل بات و Bingbot رو میشناسه.

این سیستم به صورت خودکار هر چیزی که خودش رو جای گوگل بات جا بزنه ولی نتونه مراحل تایید رو رد کنه، به چالش میکشه یا بلاک میکنه. به همین خاطره که بعضی وقت ها میبینید ترافیکی با نام گوگل بات توسط Cloudflare رد میشه؛ چون به احتمال زیاد اصلا از طرف گوگل نبوده.

Cloudflare بات جعلی رو چطور تشخیص میده؟

Cloudflare برای شناسایی بات های جعلی چند عامل رو بررسی میکنه:

آدرس IP
شماره سیستم خودمختار یا ASN
Reverse DNS
الگوهای رفتاری و امضای ترافیک

به خاطر همین بررسی ها، Cloudflare و WAF های مشابه معمولا برای گوگل بات های جعلی و گاهی حتی ناخواسته برای بات های معتبر، خطای ۴۰۳ یا forbidden برمیگردونن، چون تایید هویتشون ناموفق بوده. منتورینگ سئو با تیم جلال ترابی بهت کمک میکنه تا KPI های دقیق رو مشخص کرده و به هرکدوم به راحتی بررسی.

Akamai هم همین مسیر رو میره؟

مدیریت بات Akamai هم عملکردی شبیه Cloudflare داره. این سرویس بر اساس IP، ASN و امضاهای رفتاری بات رو تایید میکنه و معمولا از قبل طوری تنظیم شده که گوگل بات واقعی رو اجازه بده و نمونه های جعلی رو رد کنه.

یک نکته مهم درباره خطای تشخیص

باید بدونید احتمال خطای تشخیص همیشه وجود داره. مثلا اگه گوگل بات یکدفعه از IP یا مسیر جدیدی استفاده کنه، ممکنه WAF به اشتباه اون رو بلاک کنه. به همین دلیل بهتره به صورت منظم لاگ های فایروال رو بررسی کنید و در صورت نیاز، لیست های مجاز یا allowlist رو به روزرسانی کنید.

مانیتورینگ خزش و هشدارها

کلاهبرداری با گوگل‌ بات (خزنده‌ های جعلی، سوء استفاده از بات‌ ها و روش‌ های محافظت از سایت)

بررسی دستی برای شناسایی و مدیریت مشکلات فعال کمک میکنه، اما محافظت واقعی از سایت با مانیتورینگ مداوم به دست میاد. اینجاست که پلتفرم های SIEM و ابزارهای مانیتورینگ سرور وارد بازی میشن. بیشتر این ابزارها اجازه میدن هشدارهای سفارشی تعریف کنید. مثلا بگید:

«اگه بیشتر از X درخواست در دقیقه با user agent شامل گوگل بات ارسال شد و IP داخل allowlist نبود، هشدار بده.»

این منطق کمک میکنه خیلی سریع بات جعلی رو شناسایی کنید. اگه یک گوگل بات جعلی شروع کنه سایت رو زیر بار درخواست ببره، ظرف چند ثانیه متوجه میشید. پلتفرم هایی که جریان لاگ یا آمار خزش رو رصد میکنن، مثل خیلی از ابزارهایی که بخش قبل گفتم، میتونن در صورت دیدن رفتارهای غیرعادی هشدار بدن، مثل:

افزایش ناگهانی خزش با نام گوگل بات
قطع شدن کامل ترافیک گوگل بات واقعی
خطاهای تکرارشونده که توسط یک خزنده مشکوک ایجاد میشن

نکته مهم اینه که اول باید یک الگوی رفتاری نرمال بسازید. با استفاده از گزارش Crawl Stats گوگل یا لاگ های قدیمی سرور مشخص کنید رفتار طبیعی سایت شما چطوره. بعد از اون، سیستم هشداردهی رو طوری تنظیم کنید که هر چیزی خارج از این الگو رو علامت بزنه.

ابزارهای تکمیلی

علاوه بر ابزارهای سنگین تحلیل و فایروال ها، چند ابزار سبک تر هم هست که داشتنشون بد نیست، مخصوصا برای تیم هایی که به پلتفرم های امنیتی سازمانی دسترسی ندارن یا سایت هایی که فقط به تشخیص ساده نیاز دارن.

البته باید بدونید این ابزارها به قدرت گزینه هایی که قبل تر گفتیم نیستن و کاربردشون هم محدودتره.

Rich Results Test و URL Inspection گوگل

ابزار Rich Results Test و URL Inspection گوگل نشون میدن گوگل بات واقعی یک صفحه مشخص رو چطور رندر میکنه. اما کمکی به شناسایی گوگل بات های جعلی که بقیه بخش های سایت رو میخزن نمیکنن.

اسکریپت های متن باز برای اسکن لاگ

خیلی از سئوکارها از اسکریپت های پایتون یا شل استفاده میکنن تا ترافیک گوگل بات رو به صورت دسته جمعی بررسی کنن. روند کار معمولا این شکلیه:
اول تمام درخواست هایی که user agent اونها شامل گوگل بات هست رو از لاگ ها استخراج میکنید، بعد IP ها رو با لیست JSON رسمی گوگل مقایسه میکنید. در نهایت اسکریپت رو به صورت cron job تنظیم میکنید که مثلا روزانه یا هفتگی اجرا بشه و هر چیزی که تطابق نداشت رو علامت بزنه.

Log Hero

Log Hero به Google Analytics وصل میشه و گوگل بات های جعلی رو شناسایی میکنه و از گزارش های آنالیتیکس فیلترشون میکنه. این کار کمک میکنه داده ها تمیز بمونن، مخصوصا اگه برای تحلیل عملکرد سئو به لاگ ها و داده های دقیق وابسته باشید.

بهترین روش برای تشخیص کلاهبرداری با گوگل بات چیه؟

هیچ ابزار واحدی وجود نداره که بتونه همه چیز رو به تنهایی تشخیص بده. برای بهترین نتیجه، این ترکیب رو در نظر بگیر:

از تحلیل لاگ استفاده کن تا مشخص بشه کدوم بات ها واقعا جعلی هستن
بذار فایروال یا فیلترهای بات به صورت فعال جلوی اونها رو بگیرن
به این موضوع مثل یک سیستم لایه ای نگاه کن: یک ابزار تقلب رو شناسایی میکنه، یکی دیگه مسدودش میکنه و ابزار سوم داده های سئو و آنالیتیکس رو تمیز نگه میداره

این ترکیب باعث میشه هم سایت امن تر بمونه، هم تصمیم هایی که برای سئو میگیری بر اساس داده درست باشه.

چطور گوگل بات جعلی رو امن بلاک کنیم؟

وقتی مطمئن شدی فعالیت گوگل بات جعلی توی سایت وجود داره، قدم بعدی اینه که جلوش رو بگیری، بدون اینکه به اشتباه گوگل بات واقعی رو مسدود کنی.

بلاک گسترده نکن دقیق عمل کن

بلاک کردن کلی و بدون دقت ممکنه باعث بشه دیده شدن سایتت توی جستجوی گوگل آسیب ببینه. به جاش باید دقیق عمل کنی و فقط بات های جعلی رو ببندی، نه گوگل بات واقعی رو.

allowlist کردن IP های تاییدشده گوگل بات

ساختن allowlist مطمئن ترین راه برای بلاک کردن گوگل بات جعلیه. یعنی به صورت شفاف فقط به IP های رسمی گوگل اجازه دسترسی بدی و هر چیزی که خودش رو گوگل بات معرفی میکنه ولی با این IP ها تطابق نداره رو مسدود کنی.

اول از همه از لیست IP هایی که خود گوگل منتشر کرده استفاده کن و بر اساس اون یک allowlist بساز. بعد این منطق رو داخل فایروال یا فایل .htaccess پیاده کن. مثلا:

یا روی Cloudflare میتونی یک قانون فایروال این شکلی بنویسی:

if UA contains “گوگل بات” AND cf.client.bot != true → block

این روش کمک میکنه گوگل بات های جعلی رو با خیال راحت فیلتر کنی، بدون اینکه دسترسی خزنده های واقعی گوگل قطع بشه. یادت باشه گوگل ممکنه در طول زمان IP های جدید اضافه کنه، پس لیست allowlist رو باید به صورت دوره ای به روز کنی.

👈🏻 شماره های تماس : ۰۹۱۹۰۷۲۳۲۶۹ و ۰۹۱۲۰۷۲۳۲۸۶

استفاده از reverse DNS به صورت لحظه ای

اگه تنظیمات فنی پیشرفته تری داری، میتونی موقعی که بات به سرور درخواست میزنه، reverse DNS رو همون لحظه بررسی کنی. اول reverse DNS یا PTR check انجام بده. IP باید به یک hostname ختم بشه که آخرش گوگل بات.com یا google.com باشه. بعد همون hostname رو forward DNS lookup کن. حتما باید دوباره به همون IP اولیه برگرده.

بعضی فایروال ها یا پلتفرم های امنیتی این قابلیت رو به صورت داخلی دارن. اگه نداشتن، میتونی با اسکریپت نویسی توی NGINX و استفاده از auth_request این کار رو انجام بدی. برای شروع این مسیر، راهنمای Okta توضیح خوبی درباره این فرآیند داده.

برای دنبال کردن مهم ترین مقالات، کافیه موارد رو به رو را دنبال کنی: آموزش سئو – مقالات منابع تخصصی سئو

اضافه کردن قوانین نرخ خزش و رفتار بات

گوگل بات واقعی خزش یکنواخت و منطقی داره. سایت رو با صدها درخواست در ثانیه بمباران نمیکنه. اگه یکدفعه افزایش شدید ترافیک با نام گوگل بات دیدی، مخصوصا از IP های ناآشنا، به احتمال زیاد با گوگل بات جعلی طرفی. برای کنترل این وضعیت میتونی این کارها رو انجام بدی:

محدود کردن نرخ درخواست

درخواست هایی که از یک حد منطقی در دقیقه بیشتر میشن رو محدود کن. توی سرور، CDN یا WAF مثل Cloudflare یا NGINX قانون rate limit بذار تا هر ترافیکی با نام گوگل بات که از سقف تعیین شده درخواست در دقیقه عبور کرد، کند یا بلاک بشه.

بلاک کردن بات هایی که به مسیرهای حساس میزنن

بات هایی که مدام سراغ URL های غیرقابل ایندکس، صفحات ادمین یا honeypot ها میرن رو مسدود کن. میتونی با قوانین فایروال یا روتینگ کاری کنی هر باتی، چه گوگل بات چه غیر از اون، اگه به مسیرهای noindex یا محدود شده ای که به عنوان تله مشخص کردی درخواست زد، خودکار بلاک بشه.

هشدار برای جهش ناگهانی خزش

برای افزایش غیرمنتظره خزش هشدار بذار. توی ابزارهای مانیتورینگ لاگ یا uptime مثل Semrush Log File Analyzer یا Pingdom اعلان فعال کن تا وقتی ترافیک بات ها یکدفعه از الگوی نرمال بالاتر رفت، سریع خبردار بشی.

فقط حواست باشه آستانه هایی که تعیین میکنی، مزاحم خزش واقعی گوگل نشن. برای اینکه گوگل بات واقعی رو به اشتباه بلاک نکنی، اول الگوهای خزش قبلی رو توی لاگ ها یا ابزارهای مانیتورینگ بررسی کن و سقف rate limit رو کمی بالاتر از بیشترین حجم خزش عادی بذار. بعد هم در طول زمان لاگ ها رو زیر نظر بگیر تا مطمئن بشی جهش های طبیعی مثل reindex شدن صفحات، هنوز بدون مشکل رد میشن.

از بلاک صرفا بر اساس user agent دوری کن

شاید وسوسه کننده باشه که هر درخواستی با user agent شامل گوگل بات رو بلاک کنی، ولی این کار گوگل بات واقعی رو هم میبنده.

اگه هیچ راهی جز این نداشتی، میتونی:

فرمت های خاصی از user agent که توی ترافیک جعلی دیدی رو بلاک کنی، مثلا گوگل بات/۲.۱ همراه با IP های ناشناس
این کار رو فقط در کنار فیلتر IP یا قوانین رفتاری انجام بدی

اما هیچ وقت فقط به user agent تکیه نکن. حتی خود گوگل هم هشدار داده این کار میتونه باعث حذف از ایندکس یا افت رتبه بشه.

قبل از اعمال نهایی در حالت مانیتور تست کن

قبل از اینکه هر قانونی رو به صورت کامل اجرا کنی، اگه پلتفرمت اجازه میده اول اون رو در حالت فقط مانیتور یا log-only اجرا کن. این کار جلوی اشتباهات پرهزینه رو میگیره. بعدش:

بررسی کن چه ترافیکی علامت گذاری میشه
مطمئن شو گوگل بات تاییدشده بدون مشکل عبور میکنه
منطق قوانین رو اصلاح کن و بعد برو سراغ حالت بلاک

👈🏻 شماره های تماس : ۰۹۱۹۰۷۲۳۲۶۹ و ۰۹۱۲۰۷۲۳۲۸۶

استفاده از WAF و سرویس های ابری

پلتفرم هایی مثل Cloudflare، Akamai و سرویس های مشابه ابزارهای مدیریت بات و تایید هویت رو به صورت آماده دارن.

Cloudflare با فلگ cf.client.bot بات های تاییدشده رو مشخص میکنه
سرویس هایی مثل Akamai میتونن گوگل بات رو بر اساس ASN و الگوهای رفتاری تشخیص بدن
بعضی پلتفرم ها اجازه میدن بدون اسکریپت نویسی، گوگل بات جعلی رو خودکار بلاک کنی

این سیستم ها بات های مخرب رو همون لبه شبکه فیلتر میکنن و اصلا به سرور نمیذارن برسن. با این حال همیشه هم صددرصد کافی نیستن. مهاجم های جدی میتونن IP رو مرتب عوض کنن، رفتار ترافیک رو شبیه واقعی ها کنن یا از ضعف های شناسایی بات استفاده کنن؛ حتی جاهایی که WAF های پیشرفته هم جا میمونن.

به همین خاطر، حتی اگه از این سرویس ها استفاده میکنی، بهترین کار اینه که در کنارش حداقل ترکیبی از allowlist کردن IP، بررسی DNS و مانیتورینگ رفتاری رو هم داشته باشی تا پوشش امنیتی کامل تری بسازی.

چطور بدون اتلاف وقت از سایت در برابر گوگل بات جعلی محافظت کنیم؟

میشه همه این کارها رو انجام داد بدون اینکه زمان یا انرژی زیادی صرف بشه. فقط کافیه روال درست داشته باشی.

مانیتورینگ مداوم لاگ ها

بررسی لاگ ها نباید یک کار مقطعی باشه. بهتره تبدیل بشه به بخشی از روتین کارت. چه با ابزار چه دستی، همیشه حواست به درخواست هایی با user agent مربوط به گوگل بات باشه و IP هاشون رو بررسی کن.

تا جایی که میتونی همه چیز رو خودکار کن. مثلا اسکریپت های روزانه تنظیم کن که اگه درخواستی با نام گوگل بات از منبع تاییدنشده اومد، سریع علامت بزنه. شناسایی زودهنگام بات جعلی جلوی خراب شدن داده ها، ریسک های امنیتی و هدر رفت crawl budget رو میگیره.

تنظیم هشدارهای لحظه ای

از ابزارهای مانیتورینگ مثل New Relic، Datadog یا داشبوردهای مخصوص سئو استفاده کن تا رفتار غیرعادی خزنده ها رو تشخیص بدن.

روی این موارد حساس باش:

افزایش ناگهانی خزش با user agent گوگل بات
خطاهای غیرمنتظره 4xx یا 5xx
الگوهای جدید یا عجیب در مسیرهای خزش

این ابزارها همون لحظه که مشکل ایجاد میشه بهت خبر میدن و اجازه میدن قبل از بزرگ شدن ماجرا واکنش نشون بدی.

اجرای دوره ای ممیزی بات ها

به صورت دوره ای مثلا هر سه ماه یا شش ماه یک بار، دفاع سایتت رو تست کن.

robots.txt رو بررسی کن ببین خیلی باز یا بیش از حد بسته نیست
allowlist IP ها رو با آخرین لیست IP های خزنده گوگل به روز کن
منطق بلاک رو تست کن، مثلا با curl و جعل user agent گوگل بات از یک IP غیرگوگلی

این بررسی ها کمک میکنه فیلترها همگام با تغییر تهدیدها دقیق بمونن.

بهینه سازی نقاط ورود خزش

بهداشت خزش خوب باعث میشه تاثیر بات های جعلی کمتر بشه. URL های غیرضروری رو توی robots.txt ببند، تله های خزش بی نهایت رو اصلاح کن و ساختار ناوبری رو ساده تر کن. برای محافظت بیشتر، یک URL تله یا honeypot بساز که توی robots.txt مسدود شده و هیچ لینکی هم از سایت بهش وجود نداشته باشه. اگه چیزی با نام گوگل بات به اون آدرس درخواست زد، خیلی راحت میفهمی جعلیه و میتونی بلاکش کنی.

مستندسازی و هماهنگی روی سیاست خزش

کسب و کارهای بزرگ که چند تیم همزمان روی سایت کار میکنن، بهتره یک سیاست خزش مشخص داشته باشن و همه باهاش هماهنگ باشن. حداقل این موارد رو شفاف کن:

کدوم بات ها اجازه دسترسی دارن
چطور تایید هویت میشن
مسئول نگهداری قوانین دسترسی کیه

همچنین مطمئن شو توسعه دهنده هایی که از خزنده های سئو شبیه گوگل بات استفاده میکنن، با تیم وب یا امنیت هماهنگ هستن تا خطای اشتباه یا مشکل سایت پیش نیاد. مستندسازی شفاف جلوی اشتباهات ناخواسته رو میگیره، مثل allowlist کردن یک بات جعلی فقط به خاطر user agent.

دفاع چندلایه بساز

هیچ ابزار واحدی همه چیز رو نمیگیره. روش ها رو با هم ترکیب کن:

بررسی DNS و IP در سطح سرور
مدیریت بات از طریق CDN یا WAF مثل Cloudflare یا Akamai
کپچا یا محدودیت نرخ درخواست در جاهای لازم، ولی هرگز برای گوگل بات

هدف اینه که لایه های پشتیبان داشته باشی بدون اینکه بیش از حد بلاک کنی.

همیشه به روز بمون

بات های جعلی و رفتارهای جدید مدام در حال ظهور هستن. دنبال کردن این منابع خیلی کمک میکنه:

Google Search Central
رسانه های معتبر سئو مثل Search Engine Land
بلاگ های امنیتی Cloudflare، Imperva یا Human Security

آگاه بودن باعث میشه اگه چیزی تغییر کرد، مثل بات جدید، user agent تازه یا روش حمله جدید، سریع خودت رو وفق بدی.

مشاوره سئو و منتورینگ سئو در کنار هم کمک میکنن تا بهترین نتیجه رو از نتایج جستجوی گوگل داشته باشی. برای دنبال کردن مهم ترین مقالات، کافیه موارد رو به رو را دنبال کنی: آموزش سئو – مقالات منابع تخصصی سئو

ارتباط ردیابی کلاهبرداری با گوگل بات و هوش مصنوعی چیه؟

گوگل بات های جعلی تنها تهدیدی نیستن که باید حواست بهشون باشه. اینها بخشی از یک روند بزرگتر هستن: افزایش شدید ترافیک خزنده ها که توسط هوش مصنوعی هدایت میشه و همراهش موج جدیدی از جعل هویت بات ها به وجود اومده.

کلاهبرداری با گوگل‌ بات (خزنده‌ های جعلی، سوء استفاده از بات‌ ها و روش‌ های محافظت از سایت)

رشد انفجاری خزنده های هوش مصنوعی

در سال های اخیر، شرکت هایی مثل OpenAI، Meta و Anthropic بات های اختصاصی خودشون مثل GPTBot، LlamaBot و ClaudeBot رو راه انداختن تا وب رو بخزن و برای آموزش مدل های هوش مصنوعی ازش استفاده کنن. در مجموع، طبق گزارش Cloudflare ترافیک خزنده های جستجو و هوش مصنوعی از می ۲۰۲۴ تا می ۲۰۲۵ حدود ۱۸ درصد رشد داشته و ترافیک GPTBot نسبت به سال قبل ۳۰۵ درصد رشد کرده و بعد از گوگل بات به دومین خزنده فعال وب تبدیل شده و بسته به منبعی که بررسی میکنی، الان بین ۳۰ درصد تا نزدیک به نیمی از کل ترافیک اینترنت رو بات ها تشکیل میدن. طبق گزارش Imperva هم حدود ۳۰ درصد از این ترافیک باتی، مخربه. این انفجار در فعالیت خزنده ها، چالش های جدیدی برای صاحب های سایت ایجاد کرده، مخصوصا در زمینه تایید هویت و کنترل دسترسی.

جعل هویت خزنده های هوش مصنوعی شروع شده

دقیقا مثل گوگل بات جعلی، حالا مهاجم ها دارن خودشون رو جای بات های هوش مصنوعی جا میزنن تا از فیلترها رد بشن و محتوا رو بدزدن.طبق تحلیل دو هفته ای Human Security روی ترافیک مرتبط با ۱۶ خزنده و اسکرپر معروف هوش مصنوعی:

۵.۷ درصد از ترافیکی که ادعا میکرد از خزنده های معروف هوش مصنوعی اومده، در واقع جعلی بوده
user agent مربوط به ChatGPT نرخ جعل ۱۶.۷ درصدی داشته، یعنی بخش قابل توجهی از ترافیکی که با نام ChatGPT ثبت شده، اصلا از OpenAI نبوده

دلیلش چیه؟ این بات ها تازه وارد هستن و هنوز قوانین و چارچوب مشخصی براشون وجود نداره. صاحب های سایت هنوز دارن تصمیم میگیرن باهاشون چطور رفتار کنن و همین بلاتکلیفی، جعل هویتشون رو برای مهاجم ها خیلی راحت کرده.

الگوی آشنا که داره گسترده تر میشه

سناریوی کلاهبرداری عوض نشده. همون روش قدیمی ادامه داره: جعل user agent یک بات قابل اعتماد برای رد شدن از لایه های امنیتی. امروز جعل گوگل بات انجام میشه، فردا ممکنه اینها باشه:

GPTBot جعلی که مقاله های کامل رو اسکرپ میکنه
BingBot جعلی که باعث اسپم در ایندکس جستجو میشه
بات جعلی متا که ساختار سایت رو بررسی میکنه

هر چقدر یک بات معروف تر میشه، احتمال جعل شدنش هم بیشتر میشه.

دفاع در برابر گوگل بات جعلی هنوز جواب میده

همون استراتژی هایی که برای مقابله با گوگل بات جعلی استفاده میکنی، اینجا هم کاربرد دارن:

بررسی IP ها با لیست های رسمی منتشرشده
استفاده از reverse DNS و تایید رفت و برگشتی
راه اندازی هشدار برای رفتارهای غیرعادی خزش
بلاک کردن بات های مشکوک در فایروال یا لبه شبکه

خوشبختانه بعضی خزنده های هوش مصنوعی مثل GPTBot از الان توکن تایید یا بازه IP رسمی ارائه میدن تا تشخیص هویت راحت تر بشه. برای جلو زدن از فعالیت های جعلی و نزدیک شدن به استاندارد موتورهای جستجوی بزرگ، احتمالا بات های بیشتری هم همین مسیر رو میرن.

👈🏻 شماره های تماس : ۰۹۱۹۰۷۲۳۲۶۹ و ۰۹۱۲۰۷۲۳۲۸۶

با ردیابی یک بات، بقیه رو هم کنترل کن

افزایش گوگل بات جعلی به صورت اتفاقی رخ نمیده. این یک نشونه از آینده است. با هجوم خزنده های هوش مصنوعی مثل GPTBot، LlamaBot و بقیه به وب، مهاجم ها هم همچنان از نقاط کور تایید هویت بات ها سوءاستفاده میکنن. در آینده شاید راهکارهایی مثل امضای رمزنگاری شده برای بات ها بتونه یک روش استاندارد و قابل تایید برای اثبات هویت خزنده ها فراهم کنه. اما تا اون موقع، محافظت از سایت کاملا به سیستم هایی بستگی داره که خودت روشون کنترل داری:

تایید IP
مانیتورینگ لاگ ها
بلاک کردن بات های جعلی
ساختن یک دفاع چندلایه و هوشمند

مقابله با گوگل بات جعلی دیگه فقط یک کار بهداشتی سئو نیست. اگه امروز درست انجامش بدی، برای وب آینده که به شدت خودکار و AI محور شده، آماده تر خواهی بود.

برای دنبال کردن مهم ترین مقالات، کافیه موارد رو به رو را دنبال کنی: آموزش سئو – مقالات منابع تخصصی سئو

سوالات متداول

کلاهبرداری با گوگل‌ بات (خزنده‌ های جعلی، سوء استفاده از بات‌ ها و روش‌ های محافظت از سایت)

در ادامه به مهم ترین سوالات متداول در این زمینه پاسخ میدم:

۱. کلاهبرداری با گوگل بات دقیقا یعنی چی؟

کلاهبرداری با گوگل بات یعنی یک بات مخرب خودش رو به جای گوگل بات واقعی جا میزنه تا از قوانین امنیتی رد بشه و بتونه راحت تر سایت رو بخزه، محتوا رو اسکرپ کنه یا به سرور فشار بیاره.

۲. از کجا بفهمم گوگل بات که به سایتم زده واقعیه یا جعلی؟

تنها راه مطمئن، تایید IP یا بررسی reverse DNS و forward DNS هست. user agent به تنهایی قابل اعتماد نیست و خیلی راحت جعل میشه.

۳. آیا بلاک کردن گوگل بات جعلی روی سئو تاثیر منفی داره؟

اگه دقیق عمل کنی نه. مشکل وقتی پیش میاد که گوگل بات واقعی رو به اشتباه بلاک کنی. برای همین باید فقط بات هایی رو ببندی که تایید هویتشون انجام نشده.

۴. چرا نباید فقط بر اساس user agent تصمیم بگیرم؟

چون user agent فقط یک متن ساده است و هر کسی میتونه بنویسه گوگل بات. اتکا به user agent به تنهایی میتونه باعث دی ایندکس شدن یا افت رتبه بشه.

۵. گوگل بات جعلی چه آسیبی به سئو میزنه؟

باعث خراب شدن آنالیتیکس، ایجاد نویز در crawl budget، افزایش خطاهای 4xx و 5xx و تصمیم گیری اشتباه در سئو تکنیکال میشه.

۶. سرچ کنسول میتونه گوگل بات جعلی رو نشون بده؟

نه مستقیم. سرچ کنسول فقط فعالیت گوگل بات واقعی رو نشون میده. ولی اگه چیزی توی لاگ دیدی که در Crawl Stats نیست، میتونه نشونه گوگل بات جعلی باشه.

۷. بهترین روش بلاک کردن گوگل بات جعلی چیه؟

بهترین روش، allowlist کردن IP های رسمی گوگل و بلاک کردن هر چیزی هست که خودش رو گوگل بات معرفی میکنه ولی داخل این بازه IP نیست.

۸. استفاده از WAF مثل Cloudflare کافیه؟

کمک زیادی میکنه ولی کافی نیست. بهترین حالت، ترکیب WAF با تحلیل لاگ و قوانین رفتاری مثل rate limit هست.

۹. آیا خزنده های هوش مصنوعی هم ممکنه جعل بشن؟

بله. الان بات هایی مثل GPTBot، LlamaBot و ClaudeBot هم جعل میشن. همون روش های دفاعی گوگل بات برای اینها هم کاربرد داره.

۱۰. هر چند وقت یکبار باید این موارد رو بررسی کنم؟

بهتره مانیتورینگ لاگ ها دائمی باشه و حداقل هر چند ماه یکبار allowlist IP ها، قوانین فایروال و الگوهای خزش بازبینی بشن. این کار جلوی خیلی از مشکلات آینده رو میگیره.

تا دیر نشده همین حالا میتونی درخواست وقت مشاوره سئو بدی و مشکلات سایتت رو با تیم جلال ترابی به صورت حرفه ای بررسی کنی.

جمع بندی

کلاهبرداری با گوگل بات یعنی یک بات مخرب خودش را جای گوگل بات جا میزند تا از قوانین امنیتی رد شود و دسترسی بیشتری برای خزش و اسکرپ داشته باشد. چون user agent فقط یک متن ساده است، جعل کردنش راحت است و خیلی از بات های مخرب دقیقا همان رشته user agent گوگل را کپی میکنند و درخواست هایشان را قانونی جلوه میدهند. نتیجه این میشود که بدون اینکه متوجه شوید، یک ترافیک جعلی با ظاهر معتبر وارد سایت میشود و هم به منابع سرور فشار می آورد و هم داده های سئو را به هم میریزد.

دلیل اینکه این روش جواب میدهد این است که اکثر سایت ها به گوگل بات اعتماد دارند. خیلی از سایت ها گوگل را برای ایندکس شدن باز میگذارند و خیلی از فایروال ها و ابزارهای ضداسکرپ هم گوگل بات را پیش فرض allow می کنند. مهاجم دقیقا از همین اعتماد سوءاستفاده میکند تا مثل یک مهمان ویژه از در اصلی وارد شود. بعد هم بسته به هدفش، یا محتوا و دیتا را میدزدد، یا دنبال حفره های امنیتی میگردد، یا حمله های اسپم و DDoS را پشت ماسک گوگل بات مخفی میکند، یا قوانین robots را دور میزند و به بخش هایی میرسد که برای بقیه بسته بوده.

آسیب ها فقط امنیتی نیست. از سمت سئو و دیتا هم ضربه جدی میخوری. چون گوگل بات جعلی میتواند الگوهای خزش غیرواقعی بسازد، هزاران بار یک URL را بزند، به URL های پارامتردار و فیلترها حمله کند، و موجی از 4xx و 5xx بسازد. این باعث میشود در لاگ ها و آنالیتیکس یک تصویر غلط شکل بگیرد: فکر میکنی گوگل crawl budget را هدر میدهد، فکر میکنی بخش هایی از سایت مشکل فنی دارند، یا فکر میکنی گوگل با خطای سرور درگیر شده. بعد تیم سئو می افتد دنبال رفع مسئله هایی که اصلا مربوط به گوگل واقعی نیست و وقت و هزینه صرف نویز میشود. بدتر اینکه این نویز، سیگنال های واقعی را هم پنهان میکند و تصمیم های سئو را منحرف میکند.

پس اصل کار این است که هر چیزی که ادعا میکند گوگل بات است را باور نکنی. بهترین روش تایید، یا FCrDNS است یا بررسی بازه IP های رسمی گوگل. در روش DNS، اول PTR میگیری تا ببینی IP به دامنه های گوگل بات.com یا google.com ختم میشود، بعد همان hostname را forward میکنی تا مطمئن شوی دوباره به همان IP برمیگردد. در روش IP range هم به جای DNS، IP درخواست را با لیست های JSON رسمی گوگل تطبیق میدهی. این روش سریع تر است و خیلی از سرویس های بزرگ مثل Cloudflare و AWS WAF هم همین مسیر را میرن، فقط باید یادت باشد لیست IP ها ممکن است تغییر کند و باید مکانیزم به روزرسانی داشته باشی.

برای تشخیص و مدیریت در مقیاس بالا، ابزارها خیلی کمک میکنند. تحلیل لاگ مثل Semrush Log File Analyzer میتواند رفتار گوگل بات را جدا کند و الگوهای عجیب را نشان دهد. WAF و CDN مثل Cloudflare و Akamai هم با تایید IP و ASN و reverse DNS و الگوهای رفتاری، بات های جعلی را در لبه شبکه فیلتر میکنند و خیلی وقت ها دلیل ۴۰۳ خوردن ترافیکی که شبیه گوگل بات است همین است که اصلا گوگل نبوده. اما باید حواست به false positive هم باشد، چون ممکن است گوگل از IP یا مسیر جدید استفاده کند و فایروال اشتباهی ببندد. پس بررسی دوره ای لاگ فایروال و آپدیت allowlist ضروری است.

وقتی رسیدی به مرحله بلاک کردن، اشتباه بزرگ این است که گسترده بلاک کنی. باید دقیق باشی: allowlist IP های تایید شده گوگل را بسازی و هر چیزی که user agent گوگل بات دارد ولی IP اش داخل آن نیست را ببندی. کنار این، قوانین رفتارمحور هم خیلی موثرند: rate limit برای surge های غیرعادی، بلاک بات هایی که مدام به صفحات ادمین یا مسیرهای غیرقابل ایندکس میزنند، و هشدارهای لحظه ای برای crawl spike. فقط باید سقف ها را طوری تنظیم کنی که مزاحم خزش واقعی گوگل نشود، یعنی اول baseline رفتاری سایتت را از Crawl Stats سرچ کنسول و لاگ های گذشته مشخص کنی و بعد محدودیت را کمی بالاتر از حالت نرمال بگذاری. قبل از اجرای نهایی هم اگر امکانش هست قوانین را در حالت مانیتور تست میکنی تا ببینی چه چیزی فلگ میخورد و مطمئن شوی گوگل واقعی بسته نمیشود.

نکته مهم دیگر این است که سرچ کنسول مستقیم بات جعلی را لو نمیدهد، اما بهت میگوید گوگل واقعی چه کرده. اگر در لاگ هایت فعالیتی با نام گوگل بات دیدی که در Crawl Stats نیست، این یک علامت خطر است. با این حال باز هم باید با IP و DNS تایید کنی تا دقیق تصمیم بگیری.

حالا ارتباطش با هوش مصنوعی هم همینجاست. موج خزنده ها فقط گوگل نیست. خزنده های هوش مصنوعی مثل GPTBot، LlamaBot و ClaudeBot وارد بازی شده اند و ترافیک خزنده ها رشد کرده. وقتی ترافیک خزنده ها زیاد میشود، جعل هویت هم زیاد میشود. همان الگو که برای گوگل بات جواب میده، برای خزنده های AI هم استفاده میشود: جعل user agent برای دور زدن فیلتر و اسکرپ. پس اگر سیستم تایید هویت و مانیتورینگ را درست بسازی، عملا فقط یک مشکل سئو حل نکردی، یک زیرساخت دفاعی ساختی که برای وب AI محور آینده هم به کارت می آید.

در نهایت، بهترین دفاع یک سیستم لایه ای است. یک لایه برای تایید هویت (DNS یا IP)، یک لایه برای بلاک و فیلتر در لبه (WAF و CDN)، و یک لایه برای تمیز نگه داشتن دیتا و تصمیم گیری (تحلیل لاگ، سرچ کنسول، هشدارها). با همین ترکیب، هم امنیت سایت بهتر میماند، هم منابع سرور حفظ میشود، هم داده های سئو قابل اعتماد میماند و هم وقت تیم روی کارهای واقعی صرف میشود نه نویزهای ساخته شده توسط بات های جعلی.

منبع : Search Engine Land

👈🏻 شماره های تماس : ۰۹۱۹۰۷۲۳۲۶۹ و ۰۹۱۲۰۷۲۳۲۸۶

کلاهبرداری با گوگل‌ بات (خزنده‌ های جعلی، سوء استفاده از بات‌ ها و روش‌ های محافظت از سایت)

چقدر زمان میبره؟

کلاهبرداری با گوگل بات چیست؟

گوگل بات چیست؟

چرا جعل گوگل بات کار راحتیه؟

انگیزه های رایج برای جعل گوگل بات

اصل ماجرا در کلاهبرداری با گوگل بات

سرقت محتوا و داده

اسکن سایت برای پیدا کردن حفره های امنیتی

مخفی کردن حملات DDoS یا اسپم

دور زدن قوانین robots

گوگل بات جعلی چه آسیبی به سایت میزنه؟

فشار روی سرور و از کار افتادن سایت

خراب شدن دیتای آنالیتیکس و سردرگمی در سئو

حفره های امنیتی و اسپم

خطای تشخیص و به هم ریختن گزارش ها

چطور گوگل بات واقعی رو تشخیص بدیم؟

بررسی Reverse DNS و تایید FCrDNS

Reverse DNS lookup

Forward DNS lookup

بررسی بازه های IP

یک نکته مهم درباره IP های گوگل

چرا نباید به user agent اکتفا کنیم؟

نقش Google Search Console

مقایسه Crawl Stats با لاگ سرور

ابزارهای تشخیص کلاهبرداری با گوگل بات

نرم افزارهای تحلیل لاگ

Semrush Log File Analyzer

فایروال و سرویس های امنیتی

Cloudflare بات جعلی رو چطور تشخیص میده؟

Akamai هم همین مسیر رو میره؟

یک نکته مهم درباره خطای تشخیص

مانیتورینگ خزش و هشدارها

ابزارهای تکمیلی

Rich Results Test و URL Inspection گوگل

الگوی آشنا که داره گسترده تر میشه

دفاع در برابر گوگل بات جعلی هنوز جواب میده

با ردیابی یک بات، بقیه رو هم کنترل کن

سوالات متداول

۱. کلاهبرداری با گوگل بات دقیقا یعنی چی؟

۲. از کجا بفهمم گوگل بات که به سایتم زده واقعیه یا جعلی؟

۳. آیا بلاک کردن گوگل بات جعلی روی سئو تاثیر منفی داره؟

۴. چرا نباید فقط بر اساس user agent تصمیم بگیرم؟

۵. گوگل بات جعلی چه آسیبی به سئو میزنه؟

۶. سرچ کنسول میتونه گوگل بات جعلی رو نشون بده؟

۷. بهترین روش بلاک کردن گوگل بات جعلی چیه؟

۸. استفاده از WAF مثل Cloudflare کافیه؟

۹. آیا خزنده های هوش مصنوعی هم ممکنه جعل بشن؟

۱۰. هر چند وقت یکبار باید این موارد رو بررسی کنم؟

جمع بندی

دیدگاهتان را بنویسید لغو پاسخ