क्वांटिल्स को समझना: परिभाषाएँ और उपयोग

औसत आंकड़े जैसे मंझला, पहला चतुर्थक और तीसरा चतुर्थक स्थिति के माप हैं। ऐसा इसलिए है क्योंकि ये संख्या इंगित करती है कि डेटा के वितरण का एक निर्दिष्ट अनुपात कहां है। उदाहरण के लिए, माध्यिका जांच के तहत डेटा की मध्य स्थिति है। आधे डेटा में माध्यिका की तुलना में मान कम होता है। इसी तरह, डेटा के 25% में पहले चतुर्थक से कम मूल्य है और 75% डेटा में मान तृतीय चतुर्थांश से कम है।

इस अवधारणा को सामान्यीकृत किया जा सकता है। ऐसा करने का एक तरीका विचार करना है प्रतिशतक. 90 वें प्रतिशतक उस बिंदु को इंगित करता है जहां 90% प्रतिशत डेटा में इस संख्या से कम मूल्य हैं। अधिक आम तौर पर, पीवें शतमक संख्या है n जिसके लिए पीडेटा का% इससे कम है n.

सतत यादृच्छिक चर

हालांकि माध्यिका, प्रथम चतुर्थक और तृतीय चतुर्थक के क्रम आँकड़े आम तौर पर एक में पेश किए जाते हैं डेटा के असतत सेट के साथ सेटिंग, इन आंकड़ों को निरंतर यादृच्छिक के लिए भी परिभाषित किया जा सकता है चर। चूंकि हम एक निरंतर वितरण के साथ काम कर रहे हैं इसलिए हम अभिन्न का उपयोग करते हैं। पीवें प्रतिशत एक संख्या है n ऐसा है कि:

∫_-₶ⁿच ( एक्स ) dx = पी/100.

यहाँ

instagram viewer

च ( एक्स ) एक प्रायिकता घनत्व क्रिया है। इस प्रकार हम कोई भी प्रतिशत प्राप्त कर सकते हैं जो हम चाहते हैं निरंतर वितरण।

Quantiles

एक और सामान्यीकरण यह ध्यान रखना है कि हमारे ऑर्डर आँकड़े उस वितरण को विभाजित कर रहे हैं जिसके साथ हम काम कर रहे हैं। मंझला आधे में सेट किए गए डेटा को विभाजित करता है, और मध्य या 50 प्रतिशत का निरंतर वितरण क्षेत्र के संदर्भ में वितरण को आधे हिस्से में विभाजित करता है। पहला चतुर्थांश, मंझला और तीसरा चतुर्थक हमारे डेटा को प्रत्येक में समान गणना के साथ चार टुकड़ों में विभाजित करता है। हम 25 वें, 50 वें और 75 वें प्रतिशतक को प्राप्त करने के लिए उपरोक्त अभिन्न का उपयोग कर सकते हैं, और समान क्षेत्र के चार भागों में निरंतर वितरण को विभाजित कर सकते हैं।

हम इस प्रक्रिया को सामान्य कर सकते हैं। जो प्रश्न हम शुरू कर सकते हैं, उसे एक प्राकृतिक संख्या दी गई है n, हम एक चर के वितरण को कैसे विभाजित कर सकते हैं n समान रूप से आकार के टुकड़े? यह सीधे मात्राओं के विचार से बोलता है।

n डेटा सेट के लिए मात्राएँ लगभग क्रम में डेटा की रैंकिंग करके और फिर इस रैंकिंग को विभाजित करके पाई जाती हैं n - 1 समान रूप से अंतराल पर अंक।

यदि हमारे पास निरंतर यादृच्छिक चर के लिए प्रायिकता घनत्व फ़ंक्शन है, तो हम मात्राओं को खोजने के लिए उपरोक्त अभिन्न का उपयोग करते हैं। के लिये n मात्राएँ, हम चाहते हैं:

पहले 1 / हैn इसके बाईं ओर वितरण का क्षेत्र।
2 / करने के लिए दूसराn इसके बाईं ओर वितरण का क्षेत्र।
आरवें के पास है आर/n इसके बाईं ओर वितरण का क्षेत्र।
पिछले करने के लिए (n - 1)/n इसके बाईं ओर वितरण का क्षेत्र।

हम किसी भी प्राकृतिक संख्या के लिए देखते हैं n, को n मात्राएँ 100 के अनुरूप हैंआर/nवें प्रतिशत, कहाँ आर 1 से किसी भी प्राकृतिक संख्या हो सकती है n - 1.

सामान्य मात्राएँ

विशिष्ट प्रकार के नाम के लिए कुछ प्रकार के क्वांटाइल्स का उपयोग आमतौर पर किया जाता है। नीचे इनकी एक सूची दी गई है:

2 मात्रा को माध्यिका कहा जाता है
3 मात्राओं को टरसील कहा जाता है
4 मात्राओं को चतुर्थक कहा जाता है
5 मात्राओं को क्विंटल कहा जाता है
6 मात्राओं को सेक्स्टाइल कहा जाता है
7 मात्राओं को सेप्टाइल कहा जाता है
8 मात्राओं को अष्टक कहा जाता है
10 मात्राओं को डिकाइल कहा जाता है
12 मात्राओं को ग्रहणी कहा जाता है
20 मात्राओं को विगिंटाइल कहा जाता है
100 मात्राओं को प्रतिशतक कहा जाता है
1000 मात्राओं को पेर्मिल्स कहा जाता है

बेशक, अन्य मात्राएँ ऊपर की सूची में मौजूद लोगों से परे हैं। कई बार विशिष्ट मात्रा का उपयोग किया गया नमूना निरंतर से नमूने के आकार से मेल खाता है वितरण.

मात्राओं का उपयोग

डेटा के एक सेट की स्थिति को निर्दिष्ट करने के अलावा, अन्य तरीकों से क्वांटाइल्स मददगार हैं। मान लीजिए कि हमारे पास आबादी से एक सरल यादृच्छिक नमूना है, और आबादी का वितरण अज्ञात है। यह निर्धारित करने में मदद करने के लिए कि एक मॉडल, जैसे कि सामान्य वितरण या वीबुल वितरण उस आबादी के लिए एक अच्छा फिट है जिसे हमने नमूना किया था, हम अपने डेटा और मॉडल की मात्राओं को देख सकते हैं।

हमारे नमूना डेटा से मात्राओं का मिलान करके एक विशेष से मात्राओं तक संभावना वितरण, परिणाम युग्मित डेटा का एक संग्रह है। हम इन आंकड़ों को एक स्कैल्पलॉट में प्लॉट करते हैं, जिसे क्वांटाइल-क्वांटाइल प्लॉट या क्यू-क्यू प्लॉट के रूप में जाना जाता है। यदि परिणामी स्कैल्पल लगभग रैखिक है, तो मॉडल हमारे डेटा के लिए एक अच्छा फिट है।