Robots.txt क्या है? और कैसे Use किया जाता है? An Ultimate Beginners Guide 2023

robot.txt के बारे आप लोग जरूर सुना होगा और आप काफी ज्यादा कंफ्यूज होंगे की robot.txt होता क्या है और इससे आप अपनी सो की छमता कैसे बढ़ा सख्ते है। इसले चलिए सुरु से इसके बारे में समझते hai.

यह लेख में हम जानेगे की Robot.txt फाइल क्या है, इसे हम wordpress और blogger में SEO की छमता बढ़ने के लिए कैसे इस्तेमाल कर सकते है। चलिए robot.txt in hindi को सुरु करते है।

Robots.txt kya hai?

Robots.txt फ़ाइल एक text file है जिसे search engine bots द्वारा पढ़ा जाता है और bots इसमें लिखे syntax code को strictly follow करते हैं। इन bots को रोबोट भी कहा जाता है – और फ़ाइल का नाम केवल इसलिए मुश्किल लगता है क्योंकि इसे कंप्यूटर-पठनीय होना चाहिए। इसका मतलब यह है कि इसमें किसी प्रकार की कोई भी त्रुटि नहीं होनी चाहिए।

इसे “Robots Exclusion Protocol” भी कहा जाता है, robots.txt फ़ाइल प्रारंभिक search engine bots developers के बीच आम सहमति का परिणाम है। इसके official standard किसी भी standards organization द्वारा सेट नहीं किये जाते। पर फिर भी सभी प्रमुख search engine इसका पालन करते हैं।

Robots.txt फ़ाइल क्या करती है?

Robots.txt file के बारे में जानने से पहले आपको यह पता होना चाहिए कि एक search engine कैसे काम करता है। इसको हम आसान भाषा में इस तरह से समझ सकते हैं।

जब भी हम search engine में कुछ सर्च करते हैं तो सर्च इंजन के bots सबसे पहले web पर मौजूद pages को crawl करते हैं और फिर उन pages को सही क्रम में index करते हैं। और फिर एक site से दूसरी site पर घुमते रहते हैं।

अगर bots किसी नयी वेबसाइट पर पहली बार जाते हैं तो वो सबसे पहले वेबसाइट में robots.txt file को ढूँढ़ते हैं। और फिर उसमे दिए गए दिशा-निर्देश से bots को पता चलता है की इस वेबसाइट पर कोन से URL को index करने की अनुमति है।

सीधे शब्दों में, अगर हम चाहें तो हम अपनी वेबसाइट के किसी भी page को live सबको दिखा सकते हैं या हम किसी भी page को सीक्रेट रख सकते हैं।

मुझे अपनी robots.txt फ़ाइल कहाँ रखनी चाहिए?

Robots.txt फ़ाइल हमेशा आपके domain के root में होनी चाहिए। इसलिए यदि आपका डोमेन www.example.com है, तो इसे https://www.example.com/robots.txt पर पाया जाना चाहिए।

यह भी बहुत महत्वपूर्ण है कि आपकी robots.txt फ़ाइल वास्तव में robots.txt के नाम से save हो। ऐसा इसलिए है क्यूंकि इसका नाम बहुत ही नाम संवेदनशील है। ऐसा इसलिए है क्यूंकि अगर इसको किसी और नाम से save किया गया तो फिर यह file काम नहीं करेगी।

अपने robots.txt को कैसे test करें।

Online बहुत से ऐसे tools हैं जो आपको आपकी robots.txt को test करने में आपकी सहायता कर सकते हैं, लेकिन जब crawl निर्देशों को मान्य करने की बात आती है, तो हम हमेशा स्रोत पर जाना पसंद करते हैं।

आप Google के इस online robots.txt file tester पर अपनी file का test कर सकते हो। अगर आपकी file में कोई error होगा तो आप इससे यही पर ठीक कर सकते हो।

आपकी website पर robots.txt फ़ाइल है, तो उसे कैसे check करें।

अगर आपको ये check करना है कि आपके पास robots.txt फाइल है? तो बस अपने root domain को टाइप करें, और फिर URL के अंत में /robots.txt जोड़ें। उदाहरण के लिए, मेरी इस वेबसाइट की रोबोट फ़ाइल wordpress-619540-2124537.cloudwaysapps.com/robots.txt पर स्थित है।

यदि कोई robots.txt सर्च करने के बाद अगर कोई भी page दिखाई नहीं देता है, तो आपके पास वर्तमान में आपकी वेबसाइट पर कोई भी (लाइव) robots.txt file नहीं है।

अपने browser में सबसे पहले अपनी website के domain नाम को type करो।
फिर उसके बाद /robots.txt add करो
फिर आपके सामने आपकी वेबसाइट की robots.txt file ओपन हो जाएगी

Robots.txt से सम्बंधित महत्वपूर्ण जानकारी, जो आपको पता होना चाहिए:

एक robots.txt फ़ाइल को वेबसाइट के root domain में रखा जाना चाहिए।
Robots.txt केस बहुत संवेदनशील (sensitive) है: फ़ाइल का नाम हमेशा “robots.txt” ही होना चाहिए (इसमें किसी भी तरह की कोई भी गलती नहीं होनी चाहिए, नहीं तो ये फाइल काम नहीं करेगी। उदाहरण: Robots.txt, robots.tXT.
/Robots.txt फ़ाइल सार्वजनिक रूप से उपलब्ध होती है: बस उस वेबसाइट के (यदि उस साइट में एक robots.txt फ़ाइल है!) देखने के लिए किसी भी रूट डोमेन के अंत में /robots.txt जोड़ें। इसका मतलब है कि कोई भी यह देख सकता है कि आप कौन से page को क्रॉल करवाना चाहते हैं और किसे क्रॉल नहीं करना चाहते हैं, इसलिए कभी भी निजी उपयोगकर्ता जानकारी (private user information) छिपाने के लिए उनका उपयोग न करें।
रूट डोमेन का प्रत्येक उप डोमेन (subdomain) अलग-अलग robots.txt फ़ाइलों का उपयोग करता है। इसका मतलब यह है कि blog.example.com और example.com दोनों के पास अपनी robots.txt फाइलें (blog.example.com/robots.txt पर और example.com/robots.txt पर) होनी चाहिए।

Robots.txt के Technical Syntex क्या हैं?

Robots.txt सिंटैक्स को robots.txt फ़ाइलों की “भाषा” माना जा सकता है। पांच सामान्य शब्द हैं जो कि आप एक रोबोट फ़ाइल में आते हैं। उनमे शामिल है:

User-agent: एक specific web crawler जिसे आप क्रॉल निर्देश दे रहे हैं। अगर आप चाहें तो अधिकांश user-agents की एक list को यहां देख सकते हैं।
Disallow: यह command एक user-agent को किसी विशेष URL को क्रॉल नहीं करने के लिए कहता है। एक URL के लिए केवल एक बार “Disallow:” लाइन को use किया जा सकता है।
Allow (केवल Googlebot के लिए लागू): यह command Googlebot को यह बताता है कि वह किसी page या subfolder तक पहुँच सकता है, भले ही उसका मुख्य parent page या subfolder disallowed हो सकता है।
Crawl-delay: इस command से हम bots को यह बताते हैं कि किसी page content को load करने और क्रॉल करने से पहले कितने सेकंड तक क्रॉलर को इंतजार करना चाहिए। ध्यान दें कि Googlebot इस आदेश को स्वीकार नहीं करता है, लेकिन क्रॉल दर Google Google Search Console में सेट की जा सकती है।
Sitemap: इस URL से संबद्ध किसी भी XML साइटमैप (s) के स्थान को कॉल करने के लिए उपयोग किया जाता है।

Robots.txt की आवश्यकता क्यों है?

Robots.txt फाइलें आपकी साइट के कुछ क्षेत्रों में क्रॉलर की पहुंच को control करती हैं। हालांकि यह बहुत खतरनाक हो सकता है यदि आप गलती से Googlebot को आपकी पूरी साइट को क्रॉल करने से रोक देते हैं। तो कुछ स्थितियाँ हैं जिनमें robots.txt फ़ाइल बहुत काम की हो सकती है।

कुछ सामान्य उपयोग के मामलों में शामिल हैं:

SERPs में दिखने वाली डुप्लिकेट सामग्री को रोकना
एक वेबसाइट के entire sections को private रखना
internal search results पृष्ठों को सार्वजनिक SERP पर दिखाने से रोकना
साइटमैप का स्थान निर्दिष्ट करना
search engine को आपकी वेबसाइट पर (चित्र, PDF, आदि) कुछ फ़ाइलों को index करने से रोकना
क्रॉलर्स को एक बार में सामग्री के कई टुकड़ों को लोड करने पर अपने सर्वर को ओवरलोड होने से बचाने के लिए crawl delay निर्दिष्ट करना

यदि आपकी साइट पर कोई ऐसा क्षेत्र नहीं है, जहाँ आप user-agent की पहुँच को नियंत्रित करना चाहते हैं, तो आपको robots.txt फ़ाइल की आवश्यकता नहीं हो सकती है।

Robots.txt Basic format:

User-agent: [user-agent name]
Disallow: [URL string not to be crawled]

एक साथ, इन दो lines को एक पूर्ण robots.txt फ़ाइल माना जाता है – हालांकि एक रोबोट फ़ाइल में user agents और directives की कई lines हो सकती हैं (यानी, disallows, allows, crawl-delays आदि)।

Robots.txt फ़ाइल के भीतर, user agents के निर्देशों का प्रत्येक सेट एक discrete सेट के रूप में दिखाई देता है, जिसे लाइन ब्रेक द्वारा अलग किया जाता है:

अगर आप एक robots.txt फ़ाइल में multiple user-agent directives का उपयोग करते हैं तो प्रत्येक disallow or allow rule केवल उस विशेष line break-separated set में निर्दिष्ट useragent(s) पर लागू होता है। यदि फ़ाइल में एक नियम है जो एक से अधिक user agent पर लागू होता है, तो एक क्रॉलर instructions के specific group पर ध्यान देगा।

इसमें Msnbot, discobot, और Slurp सभी को विशेष रूप से user agents के रूप में use किया गया है, इसलिए वे user agents केवल robots.txt फ़ाइल में मौजूद अपने अपने sections में पर ध्यान देंगे। अन्य सभी user agents, user agents: * section में निर्देशों का पालन करेंगे।

Robots.txt file के उदाहरण:

यहां robots.txt के कुछ उदाहरण दिए गए हैं, और इसके लिए हम www.example.com साइट को अपने उदाहरण के लिए उसे करेंगे।

Robots.txt फ़ाइल URL: www.example.com/robots.txt

सभी web crawlers को अपनी वेबसाइट के सारे content के लिए block करना।

User-agent: *
Disallow: /

अगर आप अपनी Robots.txt फ़ाइल में इस सिंटैक्स का उपयोग करते हैं, तो इससे आप सभी web crawlers को बता रहे हैं कि इस वेबसाइट के homepage (www.example.com) को और वेबसाइट पर मौजूद अन्य किसी भी पेज को क्रॉल न करें।

सभी web crawlers को अपनी वेबसाइट के सारे content के लिए Allow करना।

User-agent: *
Disallow:

अगर आप अपनी Robots.txt फ़ाइल में इस सिंटैक्स का उपयोग करते हैं, तो इससे आप सभी web crawlers को बता रहे हैं कि इस वेबसाइट के homepage (www.example.com) को और वेबसाइट पर मौजूद अन्य सभी पेज को क्रॉल करने की अनुमति है।

एक specific web crawler को एक specific folder लिए block करना

User-agent: Googlebot
Disallow: /example-subfolder/

यह सिंटैक्स केवल Google के क्रॉलर (User-agent का नाम Googlebot) को किसी ऐसे page को क्रॉल करने से रोकता है जिसका URL स्ट्रिंग www.example.com/example-subfolder/ है।

एक specific web page के लिए एक specific web crawler को block करना

User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html

यह सिंटैक्स www.example.com/example-subfolder/blocked-page.html पर specific web page को क्रॉल करने से बचने के लिए केवल बिंग के क्रॉलर (User-agent का नाम Bing) को बताता है।

Search Engine Crawlers के लिए सबसे Common User Agents

यहां उन user agents की list दी गई है, जिनका उपयोग आप अपने robots.txt फ़ाइल में सबसे अधिक उपयोग किए जाने वाले search engine से मिलान करने के लिए कर सकते हैं:

Search engine	Field	User-agent
Baidu	General	baiduspider
Baidu	Images	baiduspider-image
Baidu	Mobile	baiduspider-mobile
Baidu	News	baiduspider-news
Baidu	Video	baiduspider-video
Bing	General	bingbot
Bing	General	msnbot
Bing	Images & Video	msnbot-media
Bing	Ads	adidxbot
Google	General	Googlebot
Google	Images	Googlebot-Image
Google	Mobile	Googlebot-Mobile
Google	News	Googlebot-News
Google	Video	Googlebot-Video
Google	AdSense	Mediapartners-Google
Google	AdWords	AdsBot-Google
Yahoo!	General	slurp
Yandex	General	yandex

Robots.txt File को Blogger में कैसे Add करें?

Step 1: सबसे पहले आप blogger.com पर जाये।

फिर L.H.S से blog की setting वाले section पर click करें।
और Crawlers and indexing वाले section में Enable custom robots.txt बटन को on करें।
फिर Custom robots.txt वाले section पर click करें। इसमें एक pop-up आएगा।

अब आपकी robots.txt फाइल blogger में save हो जाएगी। और आप इससे अपने blogger में check भी कर सकते हैं। इसके लिए आपको बस अपने blogger के domain के बाद /robots.txt लगाना है।