Google-Crawl-Index

आज हम जानेंगे कि – SEO me Web Crawling Kya Hai ? Web Crawler कैसे कार्य करतें हैं ? program में Web Crawling की क्या भूमिका है ?

आज Internet पर कोई भी जानकारी Search करना आम बात हो गयी है। Search करने वाले Users को, इससे कोई मतलब नहीं कि Search Engines जैसे Google, Bing आदि ये जानकारियाँ किस आधार पर उपलब्ध कर रहें हैं। उन्हें तो बस अपने काम का website , Search Result Page पर मिलना चाहिए।

परन्तु जब यही बात किसी Content Writer या हम जैसे Blogger की आती है। तो हमें यह जानना बहुत आवश्यक हो जाता है, की आखिर हमारे द्वारा लिखा गया Content, SERP ( program Result Page) पर आता कैसे है ? क्यूँकि जब हमारा website Search Result पर आएगा, तभी तो Visitors बढ़ेंगे। और जब Visitors बढ़ेंगे, तभी तो Blog से Income होगी।

वैसे तो, किसी भी program के First Page पर, अपना website लाने के लिए, हमें कई प्रक्रिया से गुजरना होता है। जिन्हें हम आने वाले नए Post पर बारी -बारी से जरूर Share करेंगे। किन्तु यह प्रक्रिया शुरु होती है, Web Crawling से। किसी भी program को, Content को SERP लाने के लिए Web Crawling करनी ही पड़ती है। इसी के आधार पर वह program , SERP के अगले Step में जाता है। तो आज हम इसी में Detail चर्चा करेंगे। आइये जानतें हैं कि Web Crawling Kya Hai ?

Web Crawling Kya Hai ?

आज Internet पर लगभग सभी प्रकार की जानकारियाँ, Online sites के रुप में उपलब्ध हैं। ये sites दुनियाँ भर में फैले हुए Servers के Database पर Store रहतें हैं। जब कोई User, किसी निश्चित जानकारी को program पर खोजता है ? तो Search Engines पर बने हुए हुए Programs, Search Algorithms की मदत से, उस जानकारी को Internet पर उपलब्ध सभी Updated एवं New Pages पर खोजतें हैं। ऐसे Programs को program Bots, Web Crawler या Spider भी कहा जाता है। और जानकारी खोजने की इस प्रक्रिया को Web Crawling कहतें हैं।

Web Crawling की प्रक्रिया में, Search Engines के द्वारा पूछें गए Search Queries को, Search Algorithms को प्रयोग करके Data Collection किया जाता है। साथ ही प्राप्त Information से सम्बंधित Relevant Backlinks के sites की जानकारी भी एकत्र की जाती है। अंत में प्राप्त (Retrieved) सभी sites और उनके Links की List को Search Indexing के लिए भेज दिया जाता है।

Web Crawling की Process निम्न बिंदुओं पर आधारित होती है। जैसे

  • Search Engine पर पूछीं गयी Query से सम्बंधित website का URL उपलब्ध हो। एवं URL का Sitemap Google या Bing पर Submit किया गया हो।
  • Web Page के Internal Links उससे सम्बंधित हो।
  • Web Page के External Links उससे सम्बंधित हो।
  • किसी भी Page को सफलता पूर्वक Web Crawling करने के लिए, Website या Blog Owner को Search Engines जैसे Google के Search Console पर ब्लॉग को Verify करना होता है।, साथ ही, XML Sitemap Submit करना अनिवार्य होता है। Google Search Console में Submitted URL को Check करने के लिए URL Inspection Tool उपलब्ध है।यदि Sitemap उपलब्ध होगा तो, Search Query होने पर, Google या कोई भी program के Bots उस Page को आसानी से Crawl कर पायेंगे।
  • Web Crawler कैसे कार्य करतें हैं ?
  • आज Internet पर प्रतिदिन Billions की संख्या में sites बनाये या Update किये जातें हैं। website के मालिक SERP पर अपना website लाने के लिए, उनका Sitemap Search Engines पर Submit भी करतें हैं। ऐसे में Web Crawlers का कार्य बड़ा चुनौतीपूर्ण हो जाता है।
  • Web Crawler अपना कार्य बिलकुल बुनियाद से शुरु करतें हैं। Web Crawler Search Query पर पूँछे गये Content को, Search Console पर Submit किये गये समस्त sites के Sitemap URL से Match करतें हैं। उनकी सही पहचान करने के लिए, उनमें Attached Hyperlinks को भी Crawled किया जाता है। यह प्रक्रिया तब तक चलती है, जब तक उस program पर उपलब्ध सारे Sitemap URL की Crawling न हो जाये।
  • साथ ही Searching के दौरान Web Crawlers के द्वारा, कुछ निश्चित Policies को Follow किया जाता है। इन Policies की मदत से यह निर्णय लेने में आसानी होती है कि, कौन से sites की Crawling करनी है ? किस क्रम में Crawling करनी है ? तथा Content Update करने के लिए पुनः Crawling कब करनी है ? यह सब Policies में निर्धारित होता है। इसके अतरिक्त कुछ अन्य कार्य भी किये जाते हैं। जैसे –
  • Web Crawling Priority :
  • लगभग सभी Search Engines Web Crawling के दौरान Crawl किये जाने वाले sites की Priority निर्धारित करतें हैं। यह निर्धारण website पर उपलब्ध High-Quality Hyperlinks, No.of Visitors, Domain Authority, Page Authority पर आधारित होती है। Search Engines ज्यादा Visitors वाले sites को अधिक Authentic एवं top quality Content मानतें हैं, और उनकी Priority अन्य sites की तुलना में ज्यादा होती है।

Revisit sites :

प्रायः website Owner समय -समय पर अपने web page को Update, Delete या Redirect करतें रहतें हैं। ऐसे में Web Crawler एक निश्चित अंतराल में sites पर Revisit करतें रहतें हैं। जिससे Updated Content की Crawling की जा सके और Visitors को नवीनतम Content प्राप्त हो।

Robots.txt Protocol Rules :

जब हम किसी website को Create करके, अपने Web Hosting के Server पर Host करतें हैं। तो हमारे Server के द्वारा उस Content की एक robot.txt File बनाई जाती है। यह File मुख्यतः Bots एवं Crawlers के लिए निर्देश सम्बंधित होती है। इस File में Hosted Website या Application को Access करने के Rules दिए होतें हैं।

Web Crawler के द्वारा किसी website के robot.txt Protocol के अनुसार भी Crawling करने का Decision लिया जाता है। पढ़ें – SEO Expert Neil Patel Robot.txt file के विषय में क्या कहतें हैं। robots.txt File के दिए गए निर्देशों के अनुसार ही Google Bot द्वारा Crawling का कार्य किया जाता है। जैसे –

  • यदि Crawler को Server या Root Directory में robots.txt File प्राप्त नहीं होती, तो Crawling प्रक्रिया की जाती है।
  • यदि Crawler को Server या Root Directory में robots.txt File प्राप्त होती है, तो Crawler दिए गए निर्देश के अनुसार Crawl करता है।
  • यदि Crawler को Crawling के दौरान कोई Error या Delay प्राप्त होता है, तो Crawler ऐसी Sites को Crawl नहीं करता है।

SEO में Web Crawling की क्या भूमिका है ?

जैसा की हम जानतें हैं कि हमें अपने Site पर Organic या Search Traffic लाने के लिए program Optimization (SEO) करना होता है। और Search Engines के द्वारा Indexing करने से पूर्व Crawling अनिवार्यतः की ही जाती है। तो, Search Results में Ranking प्राप्त करने के लिए, Web Crawling अत्यंत महत्वपूर्ण है। पढ़ें – How Search Works ?

अतः हमें Web Crawler Bots को Block नहीं करना चाहिए। हालाँकि यदि हम किसी website की Crawling नहीं करना चाहते, तो, No Index Meta Tag का Use कर सकतें हैं। यदि Search Result में हमारा Blog नहीं आ रहा है, तो Web Crawler के सन्दर्भ में कुछ अन्य कारण हो सकतें हैं। जैसे –

  • Google Search Console में हमारा ब्लॉग Add या Verified ना हो।
  • ब्लॉग का Sitemap, Google Search Console में Add ना हो।
  • Post या Page URL, Google में Submitted ना हो।
  • आपका ब्लॉग नये होने के कारण अभी Crawled ना हो पाया हो।
  • ब्लॉग में External Hyperlinks उपलब्ध ना हो।
  • Crawler को आपके ब्लॉग को Navigate करने में Error या ज्यादा समय लग रहा हो।
  • आपके ब्लॉग में Crawler के लिए program को Block करने हेतु निर्देश (Crawler Directives) हो।
  • किसी अन्य कारणवश आपका ब्लॉग Google द्वारा Penalized किया गया हो।
  • आपके ब्लॉग की Loading Speed या अन्य Performance Issue होने के कारण Crawling बाधित हो रही हो।

संछिप्त निष्कर्ष

उपरोक्त Post ” SEO me Web Crawling Kya Hai ? ” में हमनें जाना कि Web Crawling Kya Hai ? Web Crawler कैसे कार्य करतें हैं ? SEO में Web Crawling की क्या भूमिका है ? यदि Web Crawler से सम्बंधित कहीं कोई Doubt हो तो Comment Box में पूँछें। और इस Post को Facebook या अन्य Social Media में Share करना न भूलें।

 

LEAVE A REPLY

Please enter your comment!
Please enter your name here