आउटलेर डेटा मान हैं जो डेटा के सेट के बहुमत से बहुत भिन्न होते हैं। ये मान डेटा में मौजूद एक समग्र प्रवृत्ति के बाहर आते हैं। आउटलेर की तलाश करने के लिए डेटा के एक सेट की सावधानीपूर्वक परीक्षा कुछ कठिनाई का कारण बनती है। यद्यपि यह देखना आसान है, संभवतः एक स्टेमप्लॉट के उपयोग से, कि कुछ मान बाकी डेटा से अलग हैं, मूल्य को एक अलग मानने के लिए कितना अलग होना चाहिए? हम एक विशिष्ट माप को देखेंगे, जो हमें एक उद्देश्यपूर्ण मानक प्रदान करेगा जो कि एक रूपरेखा का गठन करता है।
अन्तःचतुर्थक श्रेणी
अन्तःचतुर्थक श्रेणी क्या हम यह निर्धारित करने के लिए उपयोग कर सकते हैं कि क्या एक चरम मूल्य वास्तव में एक बाहरी है। इंटरक्वेर्टाइल रेंज के हिस्से पर आधारित है पाँच नंबर का सारांश डेटा सेट का, अर्थात् पहला चतुर्थक और तीसरा चतुर्थक. इंटरकार्टाइल श्रेणी की गणना में एक एकल अंकगणितीय ऑपरेशन शामिल है। इंटरक्वार्टाइल रेंज को खोजने के लिए हमें जो कुछ करना है, वह है कि तीसरे क्वार्टराइल से पहले क्वार्टराइल को घटाना है। परिणामी अंतर बताता है कि हमारे डेटा का मध्य आधा भाग कैसे फैला है।
आउटलेर का निर्धारण
इंटरकार्टाइल रेंज (IQR) को 1.5 से गुणा करने से हमें यह निर्धारित करने का एक तरीका मिलेगा कि क्या एक निश्चित मूल्य एक बाहरी है। यदि हम पहले एक्सर्टाइल से 1.5 x IQR घटाते हैं, तो इस संख्या से कम वाले किसी भी डेटा मान को आउटलेर माना जाता है। इसी तरह, अगर हम तीसरे चतुर्थांश में 1.5 x IQR जोड़ते हैं, तो इस संख्या से अधिक होने वाले किसी भी डेटा मान को आउटलेर माना जाता है।
मजबूत आउटलेयर
कुछ आउटलेर्स बाकी डेटा सेट से अत्यधिक विचलन दिखाते हैं। इन मामलों में हम ऊपर से कदम उठा सकते हैं, केवल उस संख्या को बदल सकते हैं जिसे हम IQR से गुणा करते हैं, और एक निश्चित प्रकार के बाह्य भाग को परिभाषित करते हैं। अगर हम पहली बार के चतुर्थांश से 3.0 x IQR घटाते हैं, तो इस संख्या से नीचे आने वाले किसी भी बिंदु को एक मजबूत रूपरेखा कहा जाता है। उसी तरह, तीसरी चतुर्थांश के लिए 3.0 x IQR को जोड़ने से हमें उन बिंदुओं को देखकर मजबूत आउटलेयर को परिभाषित करने की अनुमति मिलती है जो इस संख्या से अधिक हैं।
कमजोर बाहरी
मजबूत आउटलेर्स के अलावा, आउटलेर के लिए एक और श्रेणी है। यदि एक डेटा मूल्य एक बाहरी है, लेकिन एक मजबूत रूपरेखा नहीं है, तो हम कहते हैं कि मूल्य एक कमजोर रूपरेखा है। हम कुछ उदाहरणों को खोजकर इन अवधारणाओं को देखेंगे।
उदाहरण 1
पहले, मान लें कि हमारे पास डेटा सेट {1, 2, 2, 3, 3, 4, 5, 5, 9} है। संख्या 9 निश्चित रूप से लग रहा है कि यह एक बाहरी हो सकता है। यह बाकी सेट से किसी भी अन्य मूल्य से बहुत अधिक है। उद्देश्य से यह निर्धारित करने के लिए कि 9 एक बाहरी है, हम उपरोक्त विधियों का उपयोग करते हैं। पहली चतुर्थक 2 है और तीसरी चतुर्थक 5 है, जिसका अर्थ है कि अंतःक्षेत्र 3 है। हम अंतःक्रियात्मक सीमा को 1.5 से गुणा करते हैं, 4.5 प्राप्त करते हैं, और फिर इस संख्या को तीसरे चतुर्थक में जोड़ते हैं। परिणाम, 9.5, हमारे किसी भी डेटा मान से अधिक है। इसलिए कोई आउटलेयर नहीं हैं।
उदाहरण 2
अब हम उसी डेटा को पहले की तरह देखते हैं, इस अपवाद के साथ कि 9: {1, 2, 2, 3, 3, 4, 5, 5, 10} के बजाय सबसे बड़ा मूल्य 10 है। पहला चतुर्थक, तीसरा चतुर्थक और अंतःसंकल्प श्रेणी उदाहरण 1 के समान हैं। जब हम तीसरी एक्सर्टाइल में 1.5 x IQR = 4.5 जोड़ते हैं, तो योग 9.5 होता है। चूंकि 10 9.5 से अधिक है, इसलिए इसे एक बाहरी माना जाता है।
10 मजबूत या कमजोर है? इसके लिए हमें 3 x IQR = 9 को देखना होगा। जब हम 9 को तीसरे चतुर्थक में जोड़ते हैं, तो हम 14 की राशि के साथ समाप्त होते हैं। चूँकि 10 14 से अधिक नहीं है, इसलिए यह एक मजबूत रूपरेखा नहीं है। इस प्रकार हम निष्कर्ष निकालते हैं कि 10 एक कमजोर परिणाम है।
बाहरी लोगों की पहचान करने के कारण
हमें हमेशा आउटलेर की तलाश में रहना होगा। कभी-कभी वे एक त्रुटि के कारण होते हैं। अन्य बार आउटलेर्स पहले की अज्ञात घटना की उपस्थिति का संकेत देते हैं। एक और कारण है कि हम आउटलेर के लिए जाँच के बारे में मेहनती होने की जरूरत है क्योंकि सभी की है वर्णनात्मक आँकड़े जो आउटलेर्स के प्रति संवेदनशील हैं। मतलब, मानक विचलन और सहसंबंध गुणांक के लिए युग्मित डेटा इस प्रकार के कुछ आँकड़े हैं।