فایل Robots.txt چیست؟

فابل-robots

فایل Robots.txt در وب‌سایت ها نقش راهنما را دارند اما نه برای کاربران بلکه برای دیگر ربات هایی که وارد سایت می شوند و آنها را بررسی می کنند.تمامی فعالیت هایی سئویی که ما انجام می دهیم باید توسط رباتهای گوگل بررسی و ایندکس شوند و بر طبق آن رتبه بندی های سایت ما مشخص می شود به همین دلیل می توان از Robots ها استفاده کنیم تا مسیر بهتری را به ربات های گوگل نشان دهیم.کارایی اصلی Robots.txt محدود و مشخص کردن سطح دسترسی ربات های گوگل است تا آن چیزی که شما آماده کرده اید در سایت ایندکس شود و رتبه بندی شود.

فایل Robots.txt چیست؟

فایل Robots.txt مجوز دهنده به یک ربات است.فایل Robots.txt یک فایل متنی است که محدود ایندکس شدن محتواها به موتور های جست و جو را مشخص می کند.با نوشتن دستوراتی درون این فایل شما می توانید به جست و جو گر ها و ربات ها بگویید که کدام صفحات یا محتواها را ایندکس کنند یا نکنند.این فایل متنی ساده در ریشه و بوت وب سایت شما و معمولا در فولدر  public_html قرار می گیرد.

دلایل استفاده از فایل Robots.txt

1-محدودیت ایندکس

همان طور که می دانیم همه صفحات یک وب‌سایت دارای درجه ی اهمیت یکسانی نیست، بسیاری از طراحان سایت و وبمستر ها تمایل زیادی دارند تا صفحه ی پنل مدیریتی آنها ایندکس شود و در اختیار عموم قرار گیر، با استفاده از فایل Robots شما می توانید به موتور های جست و جو گر بفهمانید که کدام صفحات را ایندکس و عمومی نکنند.

2-منابع فایل

اگر در هنگام بارگذاری صفحه برخی از اسکریپت ها و استایل ها ویا حتی تصاویر خیلی مهم نیستند و تاثیر زیادی بر سایت شما ندارند می توانید با این فایل های روبوتس بارگذاری آن ها را با تاخیر بیندازید با کلاً قطع کنید.

3-فایل های غیر تصویری

اگر می خواهید کلا صفحه به دلایل مختلفی مثل: سئویی یا مهم بودن سرعت صفحه و . . . کلاً در صفحات جستجوی گوگل دیده نشود یاد یادتان باشد که فقط استفاده از فایل Robots.txt کافی نیست چون ممکن است لینک های خارجی یا داخلیی برای این صفحه وجود داشته باشد،  شما باید از متا تگ noindex (nofollow) هم استفاده کنید.

4-فایل های تصویری

نکته ای که باید بدانید این است که شما می توانید برای ایندکس نشدن محتواهای تصویری خود مثل: عکس و . . . با استفاده از فایل روبوتس استفاده کنید این در حالی است که این کار از لینک دهی به تصاویر شما جلوگیری نمی کند.

از ایندکس شدن چه صفحاتی باید جلوگیری کرد؟

1-برخی از صفحات قالب شما که نیازی به دیده شدن توسط موتور جست و جو گر گوگل ندارند.

2-تگها، برچسب ها، دسته ها وصفحاتی از وب سایت شما که باعث تولید محتواهای تکراری در سایت شما می شوند.

3-صفحات چت

4-فیلتر بندی های محصولات.

5-صفحات پروفایل کاربری، کاربران.

6-همه ی صفحات ادمین و وبمستر سایت.

7-صفحات که با سرچ کردن در خود سایت ایجاد می شوند و اجازه نمی دهند تا صفحات مهمی که باید در سرچ کاربران باشند نمایش داده شوند.

با فایل Robots.txt می توان صفحه ای را از نتایج گوگل حذف کرد؟

فابل-robots3

در گذشته و با استفاده از دستور noindex در همین فایل متنی می توانستیم تا علاوه بر آنکه صفحه ای را از ایندکس شدن توسط ربات ها دور می کردیم بلکه آن صفحه در جست و جو های گوگل هم نشان داده نمی شد اما الان مقداری متفاوت تر و پیچیده تر شده است.

گوگل خود نیز اعلام کرد که بهتر است برای خارج کردن صفحه ای از نتایج سرچ گوگل از راه های دیگری به جزء Robots.txt استفاده کنید.

اگر فایل Robots به درستی بارگذاری و تهیه نشود، چه اتفاقی می افتد؟

اگر این فایل به درستی و کاملی آپلود نشود، و یا کدها یا نشوته های داخل آن گویا، صحیح و دقیق نباشند، و یا ربات ها از خط های انتهایی این فایل نوع آن را شناسایی نکنند و هر اتفاق دیگری که رباتی نتواند این فایل و دستوراتش را به درستی تشخیص دهد، بی افتد، همچنان ربات ها و ربات های گوگل به ایندکس کردن و دسترسی به محتواهای شما ادامه می دهند.

آشنایی با برخی از ربات های گوگل

Google نیز تعدادی ربات یا کرالر(crawler) دارد که خودکار سایت ها را اسکن و کاوش می کنند که تعدادی از آن ها را برای شما معرفی می کنیم.

1-googlebot: این ربات صفحه های وب سایت ها را کشف و ایندکس می کند و دارای نسخه های دسکتاپ(desktop) و گوشی های هوشمند(smartphone) است.

2-ADsense: رباتی برای بررسی صفحاتی که تبلیغات را نمایش می دهند.

3-googlebot video: همان طور که از اسمش پیداست رباتی برای بررسی ویدئو ها است.

4-googlebot image: رباتی برای بررسی تصاویر و عکس های موجود در سایت است.

5-googlebot news: رباتی برای بررسی اخبار و سایت خهای خبری است.

این ربات ها مدام صفحه های وبسایت شما را بررسی می کنند و شما می توانید برای آن ها محدودیت تعیین کنید.در بخش Google search console قسمتی است به نام crawl stats که نشان می دهد کدام ربات ها و چه تعداد بار از سایت شما دیدن و آن ها را بررسی کرده اند.

دستورات مهم Robots.txt

User-agent: *

این دستور به این معنا است که دستورات فایل برای همه ی ربات های جست و جو گر یکسان عمل کنند.

User-agent: googlebot video

اگر بخواهید به یک ربات خاصی دستور خاصی بدهید باید از دستور بالا استفاده کنید.

User-agent: * Disallow: /photo

با نوشتن این دستور به هیچ یک از ربات ها اجازه ی دسترسی و بررسی محتواهای عکسی خود را نمی دهید.

User-agent: * Disallow: /photo

Allow: /photo/seo.png

دستور بالا یعنی اینکه به همه ی ربات های جست و جو گر بگو، همه عکس هایی که داخل پوشه photo هست را به جز فایل seo.png نادیده بگیرند و ایندکس نکنند.

نکته: Allow یعنی اجازه به ربات برای دسترسی و Disallow یعنی عدم اجازه ی دسترسی.

تست فایل Robots.txt با ابزار Google

اگر شما سایت خود را به google analytics و google search console متصل کنید، بعد از آن که در گوگل سرچ کنسول پروپرتی یا سایت خود را وارد و متصل کردید، به صفحه ای هدایت می شوید که در انتهای آن Robots.txt قرار دارد و می توانید از همین جا تغییرات لازم را انجام دهید و با فشار دادن دکمه Submit نیز آن را تایید کنید.شما می توانید برای تست هر فایل بلاکی در سایت خود از ابزار Google search console استفاده کیند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

-2ویژن-1
دیجیتال_مارکتینگ

ویژن فروش

در مورد برند ها و مارک هایی از آن ها خریداری می کنید به خوبی فکر کنید، چرا این نام های تجاری را انتخاب می

بیشتر بخوانید »
گوگل-ادز-و-قوانین-آن2
دیجیتال_مارکتینگ

گوگل ادز و قوانین آن

گوگل ادز(google ADs) که در ابتدا با نام گوگل ادوردز(google AdWords) شناخته می شد، اکوسیستم یا پلتفرم سرویس تبلیغاتی شرکت گوگل است، که در آن

بیشتر بخوانید »