नियमित अभिव्यक्ति: इसका क्या अर्थ है What

एक नियमित अभिव्यक्ति क्या है?

रेगेक्स, या नियमित अभिव्यक्ति, एक पैटर्न मिलान मार्कअप हैं जो प्रोग्रामर पाठ में कुछ पैटर्न खोजने के लिए उपयोग करें। आप उनकी संरचना कैसे करते हैं, इसके आधार पर रेगुलर एक्सप्रेशन लगभग कुछ भी खोज सकते हैं; वे प्रोग्रामर द्वारा हर जगह उपयोग किए जाते हैं क्योंकि वे कंप्यूटर को डेटा के माध्यम से जल्दी से सॉर्ट करने और बकवास को फ़िल्टर करने में मदद करने के लिए अमूल्य हैं जो अन्यथा त्रुटियों का कारण बन सकते हैं।

रेगुलर एक्सप्रेशन आमतौर पर डरावने लगते हैं, खासकर गैर-प्रोग्रामर के लिए। बस इसे देखें:

[a-zA-Z0-9_.+-]+@[a-zA-Z0-9_-]+\.[a-zA-Z0-9_.-]+

वास्तव में, यह वास्तव में उतना बुरा नहीं है; जो ईमेल पतों से मेल खाता हो। जैसा कि आप देखेंगे, अभिव्यक्तियों को अलग-अलग पात्रों में विभाजित किया जा सकता है, जो सभी प्रोग्राम को बताते हैं कि क्या देखना है।

नियमित अभिव्यक्ति लगभग सार्वभौमिक हैं। वही जनरल वाक्य - विन्यास यहां और वहां केवल मामूली बदलाव के साथ सभी भाषाओं में लागू होता है। इस गाइड में पायथन और जावास्क्रिप्ट दोनों के साथ-साथ सादे पुराने रेगेक्स के उदाहरण हैं। यदि आप किसी भिन्न भाषा के साथ काम करते हैं, तो चिंता न करें। आपकी पसंद की भाषा पर भी लगभग सब कुछ लागू होगा।

instagram viewer

रेगेक्स मूल बातें

तकनीकी रूप से, ऐसी बहुत सी चीजें नहीं हैं जिन्हें रेगुलर एक्सप्रेशन नहीं माना जा सकता, क्योंकि टेक्स्ट के शाब्दिक तार वास्तव में सरल होते हैं। यदि आप नियमित अभिव्यक्ति के रूप में 'abcde' का उपयोग करते हैं, तो प्रोग्रामिंग भाषा उस सटीक स्ट्रिंग की खोज करेगी।

देखने के लिए पहला अधिक गतिशील मिलान वर्ण '.' है। चरित्र। इस संदर्भ में, डॉट कैरेक्टर वाइल्डकार्ड है। यदि आप इसके साथ खोज कर रहे हैं, तो आपका प्रोग्राम मिलान के रूप में पाए जाने वाले किसी भी चरित्र को वापस कर देगा।

तो, क्या होगा यदि आप एक शाब्दिक बिंदु की तलाश करना चाहते हैं? यह मुश्किल भी नहीं है। जब आप शाब्दिक अवधि का उपयोग करना चाहते हैं, तो इसके पहले एक बैकस्लैश जोड़ें, जैसे: '\.'

बैकस्लैश वर्ण

हालाँकि, बैकस्लैश यहाँ बहुत अधिक भूमिकाएँ निभाता है। अधिकांश प्रमुख रेगेक्स वर्णों में बैकस्लैश शामिल है।

नियमित अभिव्यक्ति अंकion — पायथन में रेगेक्स के साथ अंक ढूँढना।

कुछ उदाहरणों पर एक नज़र डालें:

\d: 0 से 9. तक के अंक
\w: "शब्द वर्ण" अक्षर, अंक और अंडरस्कोर
\s: व्हाइटस्पेस वर्ण, टैब, न्यूलाइन और नियमित रिक्त स्थान सहित

यदि आप इनमें से किसी के साथ बड़े अक्षर का उपयोग करते हैं, तो आपको उल्टा मिलेगा। उदाहरण के लिए, '\D' आपको अंकों के अलावा सब कुछ देता है।

कक्षाओं

बैकस्लैश वर्ण अच्छे हैं, लेकिन वे अभी भी कठोर हैं। आम तौर पर, आप या तो अक्षरों, संख्याओं या कुछ विशेष वर्णों का मिलान करना चाहेंगे।

रेगुलर एक्सप्रेशन क्लासेस — पायथन में पत्र खोजने के लिए रेगेक्स कक्षाओं का उपयोग करना।

उन वर्णों को रखें जिनका आप मिलान करना चाहते हैं वर्ग कोष्ठक '[]' की एक जोड़ी में, और आपका प्रोग्राम उनमें से किसी से मेल खाएगा। इसे रेगेक्स क्लास कहा जाता है।

[एबीसीडी१२३४]

उपरोक्त उदाहरण अभी भी अक्षम है। इसके बजाय, आप एक श्रेणी निर्दिष्ट करने के लिए डैश का उपयोग कर सकते हैं; उदाहरण के लिए, सभी लोअरकेस अक्षर:

[ए-जेड]

आप श्रेणियों को भी सूचीबद्ध कर सकते हैं। नीचे दी गई अभिव्यक्ति सभी अक्षरों और अंकों से मेल खाती है:

[ए-जेडए-जेड0-9]

यदि आप अपने पात्रों के सेट में डैश को शामिल करने जा रहे हैं, तो इसका मूल्यांकन करने से रोकने के लिए इसे अंत में रखें। यह अन्य विशेष पात्रों के साथ भी काम करता है।

[ए-जेडए-जेड0-9_.+-]

बैकस्लैश वर्णों की तरह, आप यहाँ भी उलटा परिणाम प्राप्त कर सकते हैं। अपने परिणामों से उन्हें बाहर करने के लिए अपनी कक्षा की शुरुआत में एक '^' लगाएं। यह अंकों और कई विशेष वर्णों को परिणामों से बाहर कर देगा:

[^0-9_+.-]

समूहों

समूह आपकी अभिव्यक्ति को अलग करने के लिए कोष्ठक के एक सेट का उपयोग करते हैं। वे डेटा को समूहीकृत करते हैं, जिससे आपके प्रोग्राम को लक्षित करने और उसका उपयोग करने की अनुमति मिलती है। जब कोई प्रोग्राम स्ट्रिप करता है ' http://' एक वेब पते से, यह इसे पूरा करने के लिए रेगेक्स समूहों का उपयोग कर रहा है। रेगेक्स इसे कुछ मानदंडों को लक्षित करने देता है, और समूह इसे अलग-अलग अनुभागों को अलग करने देते हैं।

नियमित अभिव्यक्ति समूहion — रेगेक्स समूह जावास्क्रिप्ट में यूआरएल खोजने में मदद करते हैं।

समूह आपको एक या दूसरे पैटर्न के बीच चयन करने देते हैं। वे एक '|' को नियोजित करते हैं अभिव्यक्ति में "या" के रूप में कार्य करने के लिए। नीचे दिया गया व्यंजक इनमें से किसी से भी मेल खाएगा: .com, .org, .net, .edu, या .gov।

\.(com|org|net|edu|gov)

परिमाणकों

क्वांटिफ़ायर ठीक वैसा ही है जैसा वे ध्वनि करते हैं। वे अभिव्यक्ति को उस चरित्र की मात्रा बताते हैं जिसे आप ढूंढ रहे हैं। ये उपलब्ध क्वांटिफायर हैं:

*: शून्य या अधिक
+: एक या अधिक
?: शून्य या एक
{3}: कोष्ठक में राशि

इनमें से किसी भी क्वांटिफायर को उस वर्ण या वर्ग के अंत में रखें, जिसकी मात्रा आप निर्दिष्ट करना चाहते हैं। यह उदाहरण मानक सात-अंकीय टेलीफोन नंबरों की तलाश करता है:

\d{3}[.*-]\d{3}[.*-]\d{4}

लंगर और सीमाएं

रेगुलर एक्सप्रेशन आपको टेक्स्ट की एक स्ट्रिंग के भीतर या किसी शब्द के आसपास उनकी स्थिति के आधार पर पैटर्न की खोज करने देता है।

रेगुलर एक्सप्रेशन एंकर — रेगेक्स एंकर जावास्क्रिप्ट में मैच खोजने के लिए पोजिशनिंग का उपयोग करते हैं।

ये आपके प्राथमिक विकल्प हैं:

^: एक स्ट्रिंग की शुरुआत
$: एक स्ट्रिंग का अंत
\b: शब्द सीमा (किसी शब्द की शुरुआत या अंत)

यदि आप केवल एक अक्षर से शुरू होने वाले तार ढूंढना चाहते हैं, तो आप कोशिश कर सकते हैं:

^[ए-जेडए-जेड]

मान लें कि आप केवल "यह" शब्द खोजना चाहते हैं, न कि I और T अक्षर वाले शब्द; यहीं पर आप शब्द सीमाओं का प्रयोग करेंगे।

\b (i| मैं)t\b

अंतिम विचार

प्रोग्रामिंग करते समय नियमित अभिव्यक्ति आपको बहुत सारे सिरदर्द से बचा सकती है। इस आलेख में किसी भी उदाहरण को पूरा करने के लिए तर्क लिखने की कोशिश करने की कल्पना करें। यह एक भयानक गड़बड़ होगी। एक बार जब आप उनके साथ सहज हो जाते हैं, तो आप शायद खुद को वास्तव में रेगेक्स की शक्ति और लचीलेपन का आनंद लेते हुए पाएंगे।