क्लस्टर विश्लेषण एक सांख्यिकीय तकनीक है जिसका उपयोग यह पता लगाने के लिए किया जाता है कि विभिन्न इकाइयाँ - जैसे कि लोग, समूह या समाज - को एक साथ समूहीकृत किया जा सकता है, क्योंकि उनके पास समान विशेषताएं हैं। क्लस्टरिंग के रूप में भी जाना जाता है, यह एक खोजपूर्ण डेटा विश्लेषण उपकरण है जिसका उद्देश्य विभिन्न वस्तुओं को समूहों में इस तरह से क्रमबद्ध करना है कि जब वे उसी समूह से संबंधित हैं जिनके पास एसोसिएशन की अधिकतम डिग्री है और जब वे उसी समूह से संबंधित नहीं होते हैं तो उनकी एसोसिएशन की डिग्री होती है कम से कम। कुछ और के विपरीत सांख्यिकीय तकनीकक्लस्टर विश्लेषण के माध्यम से जिन संरचनाओं को उजागर किया गया है, उन्हें कोई स्पष्टीकरण या व्याख्या की आवश्यकता नहीं है - यह डेटा में संरचना की व्याख्या किए बिना बताता है कि वे क्यों मौजूद हैं।
क्लस्टरिंग क्या है?
हमारे दैनिक जीवन के लगभग हर पहलू में क्लस्टरिंग मौजूद है। उदाहरण के लिए, एक किराने की दुकान में आइटम ले लो। विभिन्न प्रकार की वस्तुओं को हमेशा एक ही या आस-पास के स्थानों में प्रदर्शित किया जाता है - मांस, सब्जियां, सोडा, अनाज, कागज उत्पाद, आदि। शोधकर्ता अक्सर डेटा और समूह ऑब्जेक्ट्स या विषयों के साथ समूहों में ऐसा करना चाहते हैं जो समझ में आता है।
सामाजिक विज्ञान से एक उदाहरण लेने के लिए, मान लीजिए कि हम देशों को देख रहे हैं और उन्हें समूहों में वर्गीकृत करना चाहते हैं जैसे कि विशेषताओं के आधार पर श्रम विभाजन, सैन्य, प्रौद्योगिकी, या शिक्षित आबादी। हम पाएंगे कि ब्रिटेन, जापान, फ्रांस, जर्मनी और संयुक्त राज्य अमेरिका में समान विशेषताएं हैं और इन्हें एक साथ जोड़ा जाएगा। युगांडा, निकारागुआ और पाकिस्तान को एक अलग समूह में एक साथ रखा जाएगा क्योंकि वे विशेषताओं का एक अलग समूह साझा करते हैं, धन के निम्न स्तर, श्रम के सरल विभाजन, अपेक्षाकृत अस्थिर और अलोकतांत्रिक राजनीतिक संस्थान, और कम तकनीकी शामिल हैं विकास।
क्लस्टर विश्लेषण का उपयोग आमतौर पर अनुसंधान के खोजपूर्ण चरण में किया जाता है जब शोधकर्ता के पास कोई नहीं होता है पूर्व कल्पित परिकल्पना. यह आमतौर पर इस्तेमाल किया जाने वाला एकमात्र सांख्यिकीय तरीका नहीं है, बल्कि इसे विश्लेषण के बाकी हिस्सों को निर्देशित करने में मदद करने के लिए एक परियोजना के शुरुआती चरणों में किया जाता है। इस कारण से, महत्व परीक्षण आमतौर पर न तो प्रासंगिक है और न ही उचित है।
क्लस्टर विश्लेषण के कई अलग-अलग प्रकार हैं। दो सबसे अधिक इस्तेमाल किया जाने वाला K- साधन क्लस्टरिंग और श्रेणीबद्ध क्लस्टरिंग हैं।
K- मतलब क्लस्टरिंग
K- साधन क्लस्टरिंग डेटा में टिप्पणियों को स्थानों और एक दूसरे से दूरी के रूप में व्यवहार करता है (ध्यान दें कि क्लस्टरिंग में उपयोग की जाने वाली दूरी अक्सर स्थानिक दूरी का प्रतिनिधित्व नहीं करती है)। यह K के परस्पर अनन्य समूहों में वस्तुओं का विभाजन करता है ताकि प्रत्येक क्लस्टर के भीतर की वस्तुएं हों संभव के रूप में एक दूसरे के करीब और एक ही समय में, अन्य समूहों में वस्तुओं से जितना संभव हो उतना दूर। प्रत्येक क्लस्टर को तब इसकी विशेषता बताई जाती है माध्य या केंद्र बिंदु.
पदानुक्रमित क्लस्टरिंग
पदानुक्रमित क्लस्टरिंग एक तरह से तराजू और दूरी पर डेटा में समूहीकरण की जांच करने का एक तरीका है। यह विभिन्न स्तरों के साथ एक क्लस्टर ट्री बनाकर ऐसा करता है। K- साधन क्लस्टरिंग के विपरीत, पेड़ समूहों का एक भी सेट नहीं है। बल्कि, पेड़ एक बहु-स्तरीय पदानुक्रम है जहां एक स्तर पर क्लस्टर अगले उच्च स्तर पर क्लस्टर के रूप में शामिल हो जाते हैं। उपयोग किया जाने वाला एल्गोरिथ्म प्रत्येक मामले या चर के साथ एक अलग क्लस्टर में शुरू होता है और फिर क्लस्टर को केवल एक ही छोड़ देता है। यह शोधकर्ता को यह तय करने की अनुमति देता है कि उसके अनुसंधान के लिए किस स्तर का क्लस्टरिंग सबसे उपयुक्त है।
एक क्लस्टर विश्लेषण करना
अधिकांश सांख्यिकी सॉफ्टवेयर प्रोग्राम क्लस्टर विश्लेषण कर सकते हैं। SPSS में, का चयन करें विश्लेषण मेनू से, फिर वर्गीकृत तथा समूह विश्लेषण. एसएएस में, द खरीद क्लस्टर फ़ंक्शन का उपयोग किया जा सकता है।
द्वारा अपडेट निकी लिसा कोल, पीएचडी।