robots-txt-ss-1920

Robots.txt क्या है? क्या आपने कभी इसके बारे में सुना है, यदि नहीं तो आज आपके लिए खुसखबरी की बात है क्यूंकि आज में आप लोगों को Robots.txt के बारे में कुछ जानकारी प्रदान करने वाला हूँ. यदि आपका कोई Blog या फिर website है तो आप ये जरुर महसूस किया होगा की कभी कभी हम जो चीज़ नहीं चाहते हैं वो सारे information भी Internet में public हो जाते हैं, क्या आपको पता है की ऐसा क्यूँ होता है. क्यूँ हमारे बहुत सारे अच्छे contents भी बहुत दिनों बाद index नहीं हुए होते. यदि इन सभी चीज़ों के पीछे की रहस्य के बारे में जानना है तो आपको ये article Robots.txt क्या है पुरे ध्यान से पढना होगा जिससे आपको article के end तक इन सभी चीज़ों के बारे में पता चल जायेगा.
Search Engines को ये बताना की कोन से Files और Folders को website में सारे public को दिखाना है और किन चीज़ों को नहीं इसके लिए Robots metatag का इस्तमाल होता है. लेकिन सारे Search Engines को Metataga को पढना नहीं आता, इसलिए बहुत से Robots Metatag बिना पढ़े गए ही unnoticed चले जाते हैं. इसके लिए जो बेहतरीन तरीका है वो है की Robots.txt File का इस्तमाल करना जिससे की बड़ी आसानी से Search Engines को अपने Website या Blog के Files और Folders के बारे में सुचना दी जा सकती है. तो आज मैंने ये सोचा की क्यूँ न आप लोगों को Robots.txt क्या है के बारे में पूरी जानकारी दे दी जाये जिससे की आपको भी आगे इसे समझने में कोई तकलीफ न हो. तो फिर देरी किस बात की चलिए शुरू करते हैं और जानते हैं की आखिर ये Robots.txt क्या है और इसके क्या फायेदे है.

Robots.txt क्या है

Robots.txt एक document होता है जिसे की आप अपने site में रखते हो ताकि आप Search Robots को ये बता सको की उन्हें आपके site में किन pages को visit करना है या crawl करना है और किन्हें नहीं. वैसे Robots.txt को पालन करना search engines के लिए mandatory नहीं है लेकिन वो इसे जरुर ध्यान देते हैं और इसमें mentioned किये गए pages और folders को visit नहीं करते. उस हिसाब से Robots.txt बहुत ही महत्वपूर्ण है. इसलिए इसे main directory में रखना अत्यंत जरुरी है जिससे की program को इसे ढूंडने में आसानी होती है.
यहाँ ध्यान देने वाली बात यह है की अगर हम इस file का सही जगह में implementation न करें तो Search Engines को ये लगेगा की शायद आपने robot.txt file को include ही नहीं किया है जिससे की आपके site के pages शायद index भी न हों. इसलिए इस छोटे से file की बहुत ज्यादा importance है यदि इसका इस्तमाल ठीक से नहीं किया गया तब इससे आपके website की ranking भी कम सकती है. इसलिए इसके बारे में अच्छी जानकारी होना बहुत ही जरुरी है.
ये कैसे काम करता है?
कोई भी search engines या Web Spiders यदि आपके website या blog को पहली बार आये हैं तो वो पहले आपके robot.txt file को crawl करते हैं क्यूंकि इसमें आपके website को लेकर सारी जानकारी होती है की किन चीज़ों को crawl नहीं करना है और किन्हें करना है. और वो आपके निर्देशित pages को index कर देती हैं, जिससे की आपके indexed pages program results में प्रदर्शित होते हैं.

Robots.txt files आपके लिए बहुत फायेदेमंद साबित हो सकते हैं यदि :

• आप चाहते हैं की search engines आपके website में स्तिथ duplicate pages को ignore करे
• अगर आप चाहते हैं की आपके internal search results pages को ये index न करे तब
• अगर आप चाहते हैं की search engines आपके निर्देशित कुछ pages को index न करें तब
• अगर आप चाहते हैं की आपके कुछ files जैसे की कुछ images, PDFs इत्यादि को ये Index न करें तब
• अगर आप चाहते हैं search engines को ये बताना की आपकी sitemap कहाँ स्तिथ है तब

कैसे robots.txt file को बनाया जाता है

यदि आपने अभी तक भी अपने website या blog में robots.txt file बनाया नहीं है तब आपको खूब शीघ्र ही इसे बना लेना चाहिए क्यूंकि ये आगे चलकर आपके लिए काफी फायेदेमंद साबित होने वाला है. इसे बनाने के लिए आपको कुछ निर्देशों को पालन करना होगा :
• सबसे पहले एक document बनायें और उसे robots.txt के नाम से save करें. इसके लिए आप NotePad का इस्तमाल कर सकते हैं यदि आप Windows का इस्तमाल करते हैं तब या TextEdit का यदि आप Macs का इस्तमाल करते हैं और उसके बाद उसे text-delimited file के हिसाब से save कीजिये.

• उसे अब अपने website के root directory में upload कर लीजिये. जो की एक root level folder होता है और उसे “htdocs” भी कहा जाता है और वो आपके name के बाद appear होता है.
• अगर आप subdomains का इस्तमाल करते हैं तब आपको सभी subdomain के लिए अलग अलग robots.txt file बनाने की जरुरत है.

Robots.txt की Syntax क्या है

Robots.txt में हम कुछ syntax का इस्तमाल करते हैं जिनके बारे में हमें जानना बहुत ही जरुरी है.
• User-Agent: वो robot जो की ये सारी rule को follow करते हैं और जिनमें ये applicable हैं (e.g. “Googlebot,” etc.)
• Disallow: इसका इस्तमाल करने का मतलब है की वो pages को bots से block करना जिन्हें आप नहीं चाहते हैं कोई दूसरा उसे access कर सके. (यहाँ प्रति files के पहले disallow लिखने की जरुरत है)
• Noindex: इसके इस्तमाल से program आपके उन pages को index नहीं करेगा जिन्हें की आप नहीं चाहते की वो indexed हो.
• सारे User-Agent/Disallow group को separate करने के लिए एक blank line का इस्तमाल करना चाहिए, लेकिन यहाँ ध्यान दें की दो groups के बिच कोई भी blank line न हो (User-agent line और the last Disallow के बिच gap नहीं होना चाहिए .
• Hash symbol (#) का इस्तमाल comments देने के लिए किया जा सकता है within a robots.txt file, जहाँ की सभी चीज़ें जिसके पहले # की symbol होगी उन्हें ignore कर दिया जायेगा. इन्हें मुख्य रूप से whole lines or end of lines के लिए इस्तमाल किया जाता है.
• Directories और filenames case-sensitive होते हैं : “private”, “Private”, and “PRIVATE” ये सारे search engines के लिए एकदम अलग अलग हैं.
चलिए के उदहारण के मदद से इसे समझते हैं. यहाँ निचे मेंने उसके बारे में लिखा है.
• यहाँ जो robot “Googlebot” है उसमें कोई भी disallowed की statement नहीं लिखी गयी है जिससे की ये free है कहीं भी जाने के लिए

Advantages of using Robots.txt

वैसे देखा जाये तो robots.txt के इस्तमाल करने के बहुत से फा ये दे है लेकिन मैंने यहाँ कुछ बहुत ही महत्वपूर्ण फा ये दे के बारे में बता या है जिनके बारे में सभी को जानकारी होना चाहिए.
• robots.txt के इस्तमाल से आपके sensitive information को private रखा जा सकता है.
• Robots.txt के मदद से “canonicalization” problems को दूर रखा जा सकता है or multiple “canonical” URLs को भी रखा जा सकता है. इस problem को भूल वसतः “duplicate content” problem भी कहा जाता है .
• इससे आप Google Bots की मदद भी कर सकते हैं Pages को index करने के लिए.

क्या होगा अगर हम robots.txt file का इस्तमाल न करें तब?

यदि हम कोई भी robots.txt file का इस्तमाल नहीं करते तब seach engines पर कोई पाबन्दी नहीं होती की कहाँ crawl करना है और कहाँ नहीं इससे वो सभी चीज़ों की index कर सकते हैं जो भी उन्हें आपके website में मिले. ये बहुत से websites के लिए सभी भी है लेकिन यदि हम कुछ अच्छे practice की बात करें तब हमें robots.txt file का इस्तमाल करना चाहिए क्यूंकि इससे search engines को आपके pages को index करने में आसानी होती हैं, और उन्हें सारे pages को बार बार जाने की जरूरत नहीं पड़ती.
मुझे पूर्ण आशा है की मैंने आप लोगों को Robots.txt क्या है के बारे में पूरी जानकारी दी और मैं आशा करता हूँ आप लोगों को Robots.txt के बारे में समझ आ गया होगा. मेरा आप सभी पाठकों से गुजारिस है की आप लोग भी इस जानकारी को अपने आस-पड़ोस, रिश्तेदारों, अपने मित्रों में Share करें, जिससे की हमारे बिच जागरूकता होगी और इससे सबको बहुत लाभ होगा. मुझे आप लोगों की सहयोग की आवश्यकता है जिससे मैं और भी नयी जानकारी आप लोगों तक पहुंचा सकूँ.

मेरा हमेशा से यही कोशिश रहा है की मैं हमेशा अपने readers या पाठकों का हर तरफ से हेल्प करूँ, यदि आप लोगों को किसी भी तरह की कोई भी doubt है तो आप मुझे बेझिजक पूछ सकते हैं. मैं जरुर उन Doubts का हल निकलने की कोशिश करूँगा. आपको यह लेख Robots.txt क्या है कैसा लगा हमें comment लिखकर जरूर बताएं ताकि हमें भी आपके विचारों से कुछ सीखने और कुछ सुधारने का मोका मिले.


ये भी पढ़े

SEO क्या है और Search engine Optimization कैसे करते हैं?

Google trends क्या है? Google trends Blogging मे कैसे काम आता हैं ?

Bounce Rate क्या है और इसे कैसे करें?

LEAVE A REPLY

Please enter your comment!
Please enter your name here