Robots.txt क्या है? और कैसे Use किया जाता है? An Ultimate Beginners Guide 2023

September 8, 2023 By Kusum Verma

robot.txt के बारे आप लोग जरूर सुना होगा और आप काफी ज्यादा कंफ्यूज होंगे की robot.txt होता क्या है और इससे आप अपनी सो की छमता कैसे बढ़ा सख्ते है। इसले चलिए सुरु से इसके बारे में समझते hai.

यह लेख में हम जानेगे की Robot.txt फाइल क्या है, इसे हम wordpress  और blogger में SEO की छमता बढ़ने के लिए कैसे इस्तेमाल कर सकते है। चलिए robot.txt in hindi को सुरु करते है।

Robots.txt kya hai?

Robots.txt फ़ाइल एक text file है जिसे search engine bots द्वारा पढ़ा जाता है और bots इसमें लिखे syntax code को strictly follow करते हैं। इन bots को रोबोट भी कहा जाता है – और फ़ाइल का नाम केवल इसलिए मुश्किल लगता है क्योंकि इसे कंप्यूटर-पठनीय होना चाहिए। इसका मतलब यह है कि इसमें किसी प्रकार की कोई भी त्रुटि नहीं होनी चाहिए।

इसे “Robots Exclusion Protocol” भी कहा जाता है, robots.txt फ़ाइल प्रारंभिक search engine bots developers के बीच आम सहमति का परिणाम है। इसके official standard किसी भी standards organization द्वारा सेट नहीं किये जाते। पर फिर भी सभी प्रमुख search engine इसका पालन करते हैं।

Robots.txt फ़ाइल क्या करती है?

Robots.txt file के बारे में जानने से पहले आपको यह पता होना चाहिए कि एक search engine कैसे काम करता है। इसको हम आसान भाषा में इस तरह से समझ सकते हैं।

जब भी हम search engine में कुछ सर्च करते हैं तो सर्च इंजन के bots सबसे पहले web पर मौजूद pages को crawl करते हैं और फिर उन pages को सही क्रम में index करते हैं। और फिर एक site से दूसरी site पर घुमते रहते हैं।

अगर bots किसी नयी वेबसाइट पर पहली बार जाते हैं तो वो सबसे पहले वेबसाइट में robots.txt file को ढूँढ़ते हैं। और फिर उसमे दिए गए दिशा-निर्देश से bots को पता चलता है की इस वेबसाइट पर कोन से URL को index करने की अनुमति है।

सीधे शब्दों में, अगर हम चाहें तो हम अपनी वेबसाइट के किसी भी page को live सबको दिखा सकते हैं या हम किसी भी page को सीक्रेट रख सकते हैं।

मुझे अपनी robots.txt फ़ाइल कहाँ रखनी चाहिए?

Robots.txt फ़ाइल हमेशा आपके domain के root में होनी चाहिए। इसलिए यदि आपका डोमेन www.example.com है, तो इसे https://www.example.com/robots.txt पर पाया जाना चाहिए।

यह भी बहुत महत्वपूर्ण है कि आपकी robots.txt फ़ाइल वास्तव में robots.txt के नाम से save हो। ऐसा इसलिए है क्यूंकि इसका नाम बहुत ही नाम संवेदनशील है।  ऐसा इसलिए है क्यूंकि अगर इसको किसी और नाम से save किया गया तो फिर यह file काम नहीं करेगी।

अपने robots.txt को कैसे test करें। 

Online बहुत से ऐसे tools हैं जो आपको आपकी robots.txt को test करने में आपकी सहायता कर सकते हैं, लेकिन जब crawl निर्देशों को मान्य करने की बात आती है, तो हम हमेशा स्रोत पर जाना पसंद करते हैं।

आप Google के इस online robots.txt file tester पर अपनी file का test कर सकते हो।  अगर आपकी file में कोई error होगा तो आप इससे यही पर ठीक कर सकते हो।

आपकी website पर robots.txt फ़ाइल है, तो उसे कैसे check करें।

अगर आपको ये check करना है कि आपके पास robots.txt फाइल है? तो बस अपने root domain को टाइप करें, और फिर URL के अंत में /robots.txt जोड़ें। उदाहरण के लिए, मेरी इस वेबसाइट की रोबोट फ़ाइल wordpress-619540-2124537.cloudwaysapps.com/robots.txt पर स्थित है।

यदि कोई robots.txt सर्च करने के बाद अगर कोई भी page दिखाई नहीं देता है, तो आपके पास वर्तमान में आपकी वेबसाइट पर कोई भी (लाइव) robots.txt file नहीं है।

  1. अपने browser में सबसे पहले अपनी website के domain नाम को type करो।
  2. फिर उसके बाद /robots.txt add करो
  3. फिर आपके सामने आपकी वेबसाइट की robots.txt file ओपन हो जाएगी

Robots.txt से सम्बंधित महत्वपूर्ण जानकारी, जो आपको पता होना चाहिए:

  1. एक robots.txt फ़ाइल को वेबसाइट के root domain में रखा जाना चाहिए।
  2. Robots.txt केस बहुत संवेदनशील (sensitive) है: फ़ाइल का नाम हमेशा “robots.txt” ही होना चाहिए (इसमें किसी भी तरह की कोई भी गलती नहीं होनी चाहिए, नहीं तो ये फाइल काम नहीं करेगी। उदाहरण: Robots.txt, robots.tXT.
  3. /Robots.txt फ़ाइल सार्वजनिक रूप से उपलब्ध होती है: बस उस वेबसाइट के (यदि उस साइट में एक robots.txt फ़ाइल है!) देखने के लिए किसी भी रूट डोमेन के अंत में /robots.txt जोड़ें। इसका मतलब है कि कोई भी यह देख सकता है कि आप कौन से page को क्रॉल करवाना चाहते हैं और किसे क्रॉल नहीं करना चाहते हैं, इसलिए कभी भी निजी उपयोगकर्ता जानकारी (private user information) छिपाने के लिए उनका उपयोग न करें।
  4. रूट डोमेन का प्रत्येक उप डोमेन (subdomain) अलग-अलग robots.txt फ़ाइलों का उपयोग करता है। इसका मतलब यह है कि blog.example.com और example.com दोनों के पास अपनी robots.txt फाइलें (blog.example.com/robots.txt पर और example.com/robots.txt पर) होनी चाहिए।

Robots.txt के Technical Syntex क्या हैं?

Robots.txt सिंटैक्स को robots.txt फ़ाइलों की “भाषा” माना जा सकता है। पांच सामान्य शब्द हैं जो कि आप एक रोबोट फ़ाइल में आते हैं। उनमे शामिल है:

  1. User-agent: एक specific web crawler जिसे आप क्रॉल निर्देश दे रहे हैं। अगर आप चाहें तो अधिकांश user-agents की एक list को यहां देख सकते हैं।
  2. Disallow: यह command एक user-agent को किसी विशेष URL को क्रॉल नहीं करने के लिए कहता है। एक URL के लिए केवल एक बार “Disallow:” लाइन को use किया जा सकता है।
  3. Allow (केवल Googlebot के लिए लागू): यह command Googlebot को यह बताता है कि वह किसी page या subfolder तक पहुँच सकता है, भले ही उसका मुख्य parent page या subfolder disallowed हो सकता है।
  4. Crawl-delay: इस command से हम bots को यह बताते हैं कि किसी page content को load करने और क्रॉल करने से पहले कितने सेकंड तक क्रॉलर को इंतजार करना चाहिए। ध्यान दें कि Googlebot इस आदेश को स्वीकार नहीं करता है, लेकिन क्रॉल दर Google Google Search Console में सेट की जा सकती है।
  5. Sitemap: इस URL से संबद्ध किसी भी XML साइटमैप (s) के स्थान को कॉल करने के लिए उपयोग किया जाता है।

Robots.txt की आवश्यकता क्यों है?

Robots.txt फाइलें आपकी साइट के कुछ क्षेत्रों में क्रॉलर की पहुंच को control करती हैं। हालांकि यह बहुत खतरनाक हो सकता है यदि आप गलती से Googlebot को आपकी पूरी साइट को क्रॉल करने से रोक देते हैं। तो कुछ स्थितियाँ हैं जिनमें robots.txt फ़ाइल बहुत काम की हो सकती है।

कुछ सामान्य उपयोग के मामलों में शामिल हैं:

  1. SERPs में दिखने वाली डुप्लिकेट सामग्री को रोकना
  2. एक वेबसाइट के entire sections को private रखना
  3. internal search results पृष्ठों को सार्वजनिक SERP पर दिखाने से रोकना
  4. साइटमैप का स्थान निर्दिष्ट करना
  5. search engine को आपकी वेबसाइट पर (चित्र, PDF, आदि) कुछ फ़ाइलों को index करने से रोकना
  6. क्रॉलर्स को एक बार में सामग्री के कई टुकड़ों को लोड करने पर अपने सर्वर को ओवरलोड होने से बचाने के लिए crawl delay निर्दिष्ट करना

यदि आपकी साइट पर कोई ऐसा क्षेत्र नहीं है, जहाँ आप user-agent की पहुँच को नियंत्रित करना चाहते हैं, तो आपको robots.txt फ़ाइल की आवश्यकता नहीं हो सकती है।

Robots.txt Basic format:

User-agent: [user-agent name]

Disallow: [URL string not to be crawled]

एक साथ, इन दो lines को एक पूर्ण robots.txt फ़ाइल माना जाता है – हालांकि एक रोबोट फ़ाइल में user agents और directives की कई lines हो सकती हैं (यानी, disallows, allows, crawl-delays आदि)।

Robots.txt फ़ाइल के भीतर, user agents के निर्देशों का प्रत्येक सेट एक discrete सेट के रूप में दिखाई देता है, जिसे लाइन ब्रेक द्वारा अलग किया जाता है:

अगर आप एक robots.txt फ़ाइल में multiple user-agent directives का उपयोग करते हैं तो प्रत्येक disallow or allow rule केवल उस विशेष line break-separated set में निर्दिष्ट useragent(s) पर लागू होता है। यदि फ़ाइल में एक नियम है जो एक से अधिक user agent पर लागू होता है, तो एक क्रॉलर instructions के specific group पर ध्यान देगा।

इसमें Msnbot, discobot, और Slurp सभी को विशेष रूप से user agents के रूप में use किया गया है, इसलिए वे user agents केवल robots.txt फ़ाइल में मौजूद अपने अपने sections में पर ध्यान देंगे। अन्य सभी user agents, user agents: * section में निर्देशों का पालन करेंगे।

Robots.txt file के उदाहरण:

यहां robots.txt के कुछ उदाहरण दिए गए हैं, और इसके लिए हम www.example.com साइट को अपने उदाहरण के लिए उसे करेंगे।

Robots.txt फ़ाइल URL: www.example.com/robots.txt

सभी web crawlers को अपनी वेबसाइट के सारे content के लिए block करना।  

User-agent: *

Disallow: /

अगर आप अपनी Robots.txt फ़ाइल में इस सिंटैक्स का उपयोग करते हैं, तो इससे आप सभी web crawlers को बता रहे हैं कि इस वेबसाइट के homepage (www.example.com) को और वेबसाइट पर मौजूद अन्य किसी भी पेज को क्रॉल न करें।

सभी web crawlers को अपनी वेबसाइट के सारे content के लिए Allow करना। 

User-agent: *

Disallow:

अगर आप अपनी Robots.txt फ़ाइल में इस सिंटैक्स का उपयोग करते हैं, तो इससे आप सभी web crawlers को बता रहे हैं कि इस वेबसाइट के homepage (www.example.com) को और वेबसाइट पर मौजूद अन्य सभी पेज को क्रॉल करने की अनुमति है।

एक specific web crawler को एक specific folder लिए  block करना

User-agent: Googlebot

Disallow: /example-subfolder/

यह सिंटैक्स केवल Google के क्रॉलर (User-agent का नाम Googlebot) को किसी ऐसे page को क्रॉल करने से रोकता है जिसका URL स्ट्रिंग www.example.com/example-subfolder/ है।

एक specific web page के लिए एक specific web crawler को block करना

User-agent: Bingbot

Disallow: /example-subfolder/blocked-page.html

यह सिंटैक्स www.example.com/example-subfolder/blocked-page.html पर specific web page को क्रॉल करने से बचने के लिए केवल बिंग के क्रॉलर (User-agent का नाम Bing) को बताता है।

Search Engine Crawlers  के लिए सबसे Common User Agents

यहां उन user agents की list दी गई है, जिनका उपयोग आप अपने robots.txt फ़ाइल में सबसे अधिक उपयोग किए जाने वाले search engine से मिलान करने के लिए कर सकते हैं:

Search engine Field User-agent
Baidu General baiduspider
Baidu Images baiduspider-image
Baidu Mobile baiduspider-mobile
Baidu News baiduspider-news
Baidu Video baiduspider-video
Bing General bingbot
Bing General msnbot
Bing Images & Video msnbot-media
Bing Ads adidxbot
Google General Googlebot
Google Images Googlebot-Image
Google Mobile Googlebot-Mobile
Google News Googlebot-News
Google Video Googlebot-Video
Google AdSense Mediapartners-Google
Google AdWords AdsBot-Google
Yahoo! General slurp
Yandex General yandex

Robots.txt File को Blogger में कैसे Add करें?

Step 1: सबसे पहले आप blogger.com पर जाये।

  • फिर L.H.S से blog की setting वाले section पर click करें।
  • और Crawlers and indexing वाले section में Enable custom robots.txt बटन को on करें।
  • फिर Custom robots.txt वाले section पर click करें।  इसमें एक pop-up आएगा।

अब आपकी robots.txt फाइल blogger में save हो जाएगी।  और आप इससे अपने blogger में check भी कर सकते हैं। इसके लिए आपको बस अपने blogger के domain के बाद /robots.txt लगाना है।