एक नियमित अभिव्यक्ति क्या है?
रेगेक्स, या नियमित अभिव्यक्ति, एक पैटर्न मिलान मार्कअप हैं जो प्रोग्रामर पाठ में कुछ पैटर्न खोजने के लिए उपयोग करें। आप उनकी संरचना कैसे करते हैं, इसके आधार पर रेगुलर एक्सप्रेशन लगभग कुछ भी खोज सकते हैं; वे प्रोग्रामर द्वारा हर जगह उपयोग किए जाते हैं क्योंकि वे कंप्यूटर को डेटा के माध्यम से जल्दी से सॉर्ट करने और बकवास को फ़िल्टर करने में मदद करने के लिए अमूल्य हैं जो अन्यथा त्रुटियों का कारण बन सकते हैं।
रेगुलर एक्सप्रेशन आमतौर पर डरावने लगते हैं, खासकर गैर-प्रोग्रामर के लिए। बस इसे देखें:
[a-zA-Z0-9_.+-]+@[a-zA-Z0-9_-]+\.[a-zA-Z0-9_.-]+
वास्तव में, यह वास्तव में उतना बुरा नहीं है; जो ईमेल पतों से मेल खाता हो। जैसा कि आप देखेंगे, अभिव्यक्तियों को अलग-अलग पात्रों में विभाजित किया जा सकता है, जो सभी प्रोग्राम को बताते हैं कि क्या देखना है।
नियमित अभिव्यक्ति लगभग सार्वभौमिक हैं। वही जनरल वाक्य - विन्यास यहां और वहां केवल मामूली बदलाव के साथ सभी भाषाओं में लागू होता है। इस गाइड में पायथन और जावास्क्रिप्ट दोनों के साथ-साथ सादे पुराने रेगेक्स के उदाहरण हैं। यदि आप किसी भिन्न भाषा के साथ काम करते हैं, तो चिंता न करें। आपकी पसंद की भाषा पर भी लगभग सब कुछ लागू होगा।
रेगेक्स मूल बातें
तकनीकी रूप से, ऐसी बहुत सी चीजें नहीं हैं जिन्हें रेगुलर एक्सप्रेशन नहीं माना जा सकता, क्योंकि टेक्स्ट के शाब्दिक तार वास्तव में सरल होते हैं। यदि आप नियमित अभिव्यक्ति के रूप में 'abcde' का उपयोग करते हैं, तो प्रोग्रामिंग भाषा उस सटीक स्ट्रिंग की खोज करेगी।
देखने के लिए पहला अधिक गतिशील मिलान वर्ण '.' है। चरित्र। इस संदर्भ में, डॉट कैरेक्टर वाइल्डकार्ड है। यदि आप इसके साथ खोज कर रहे हैं, तो आपका प्रोग्राम मिलान के रूप में पाए जाने वाले किसी भी चरित्र को वापस कर देगा।
तो, क्या होगा यदि आप एक शाब्दिक बिंदु की तलाश करना चाहते हैं? यह मुश्किल भी नहीं है। जब आप शाब्दिक अवधि का उपयोग करना चाहते हैं, तो इसके पहले एक बैकस्लैश जोड़ें, जैसे: '\.'
बैकस्लैश वर्ण
हालाँकि, बैकस्लैश यहाँ बहुत अधिक भूमिकाएँ निभाता है। अधिकांश प्रमुख रेगेक्स वर्णों में बैकस्लैश शामिल है।
कुछ उदाहरणों पर एक नज़र डालें:
- \d: 0 से 9. तक के अंक
- \w: "शब्द वर्ण" अक्षर, अंक और अंडरस्कोर
- \s: व्हाइटस्पेस वर्ण, टैब, न्यूलाइन और नियमित रिक्त स्थान सहित
यदि आप इनमें से किसी के साथ बड़े अक्षर का उपयोग करते हैं, तो आपको उल्टा मिलेगा। उदाहरण के लिए, '\D' आपको अंकों के अलावा सब कुछ देता है।
कक्षाओं
बैकस्लैश वर्ण अच्छे हैं, लेकिन वे अभी भी कठोर हैं। आम तौर पर, आप या तो अक्षरों, संख्याओं या कुछ विशेष वर्णों का मिलान करना चाहेंगे।
उन वर्णों को रखें जिनका आप मिलान करना चाहते हैं वर्ग कोष्ठक '[]' की एक जोड़ी में, और आपका प्रोग्राम उनमें से किसी से मेल खाएगा। इसे रेगेक्स क्लास कहा जाता है।
[एबीसीडी१२३४]
उपरोक्त उदाहरण अभी भी अक्षम है। इसके बजाय, आप एक श्रेणी निर्दिष्ट करने के लिए डैश का उपयोग कर सकते हैं; उदाहरण के लिए, सभी लोअरकेस अक्षर:
[ए-जेड]
आप श्रेणियों को भी सूचीबद्ध कर सकते हैं। नीचे दी गई अभिव्यक्ति सभी अक्षरों और अंकों से मेल खाती है:
[ए-जेडए-जेड0-9]
यदि आप अपने पात्रों के सेट में डैश को शामिल करने जा रहे हैं, तो इसका मूल्यांकन करने से रोकने के लिए इसे अंत में रखें। यह अन्य विशेष पात्रों के साथ भी काम करता है।
[ए-जेडए-जेड0-9_.+-]
बैकस्लैश वर्णों की तरह, आप यहाँ भी उलटा परिणाम प्राप्त कर सकते हैं। अपने परिणामों से उन्हें बाहर करने के लिए अपनी कक्षा की शुरुआत में एक '^' लगाएं। यह अंकों और कई विशेष वर्णों को परिणामों से बाहर कर देगा:
[^0-9_+.-]
समूहों
समूह आपकी अभिव्यक्ति को अलग करने के लिए कोष्ठक के एक सेट का उपयोग करते हैं। वे डेटा को समूहीकृत करते हैं, जिससे आपके प्रोग्राम को लक्षित करने और उसका उपयोग करने की अनुमति मिलती है। जब कोई प्रोग्राम स्ट्रिप करता है ' http://' एक वेब पते से, यह इसे पूरा करने के लिए रेगेक्स समूहों का उपयोग कर रहा है। रेगेक्स इसे कुछ मानदंडों को लक्षित करने देता है, और समूह इसे अलग-अलग अनुभागों को अलग करने देते हैं।
समूह आपको एक या दूसरे पैटर्न के बीच चयन करने देते हैं। वे एक '|' को नियोजित करते हैं अभिव्यक्ति में "या" के रूप में कार्य करने के लिए। नीचे दिया गया व्यंजक इनमें से किसी से भी मेल खाएगा: .com, .org, .net, .edu, या .gov।
\.(com|org|net|edu|gov)
परिमाणकों
क्वांटिफ़ायर ठीक वैसा ही है जैसा वे ध्वनि करते हैं। वे अभिव्यक्ति को उस चरित्र की मात्रा बताते हैं जिसे आप ढूंढ रहे हैं। ये उपलब्ध क्वांटिफायर हैं:
- *: शून्य या अधिक
- +: एक या अधिक
- ?: शून्य या एक
- {3}: कोष्ठक में राशि
इनमें से किसी भी क्वांटिफायर को उस वर्ण या वर्ग के अंत में रखें, जिसकी मात्रा आप निर्दिष्ट करना चाहते हैं। यह उदाहरण मानक सात-अंकीय टेलीफोन नंबरों की तलाश करता है:
\d{3}[.*-]\d{3}[.*-]\d{4}
लंगर और सीमाएं
रेगुलर एक्सप्रेशन आपको टेक्स्ट की एक स्ट्रिंग के भीतर या किसी शब्द के आसपास उनकी स्थिति के आधार पर पैटर्न की खोज करने देता है।
ये आपके प्राथमिक विकल्प हैं:
- ^: एक स्ट्रिंग की शुरुआत
- $: एक स्ट्रिंग का अंत
- \b: शब्द सीमा (किसी शब्द की शुरुआत या अंत)
यदि आप केवल एक अक्षर से शुरू होने वाले तार ढूंढना चाहते हैं, तो आप कोशिश कर सकते हैं:
^[ए-जेडए-जेड]
मान लें कि आप केवल "यह" शब्द खोजना चाहते हैं, न कि I और T अक्षर वाले शब्द; यहीं पर आप शब्द सीमाओं का प्रयोग करेंगे।
\b (i| मैं)t\b
अंतिम विचार
प्रोग्रामिंग करते समय नियमित अभिव्यक्ति आपको बहुत सारे सिरदर्द से बचा सकती है। इस आलेख में किसी भी उदाहरण को पूरा करने के लिए तर्क लिखने की कोशिश करने की कल्पना करें। यह एक भयानक गड़बड़ होगी। एक बार जब आप उनके साथ सहज हो जाते हैं, तो आप शायद खुद को वास्तव में रेगेक्स की शक्ति और लचीलेपन का आनंद लेते हुए पाएंगे।