सांख्यिकी में सिम्पसन का विरोधाभास क्या है?

विरोधाभास एक बयान या घटना है कि सतह पर विरोधाभासी लगता है। विरोधाभास बेतुका प्रतीत होता है की सतह के नीचे अंतर्निहित सच्चाई को प्रकट करने में मदद करता है। आंकड़ों के क्षेत्र में, सिम्पसन के विरोधाभास यह दर्शाता है कि कई समूहों के डेटा के संयोजन से किस प्रकार की समस्याएं होती हैं।

सभी आंकड़ों के साथ, हमें सावधानी बरतने की जरूरत है। यह कहां से आया? यह कैसे प्राप्त किया गया था? और यह वास्तव में क्या कह रहा है? ये सभी अच्छे प्रश्न हैं जो हमें डेटा के साथ प्रस्तुत करने के लिए पूछना चाहिए। सिम्पसन के विरोधाभास का बहुत ही आश्चर्यजनक मामला हमें दिखाता है कि कभी-कभी जो डेटा कह रहा है, वह वास्तव में ऐसा नहीं है।

विरोधाभास का अवलोकन

मान लीजिए कि हम कई समूहों को देख रहे हैं, और एक संबंध स्थापित करते हैं या सह - संबंध इनमें से प्रत्येक समूह के लिए। सिम्पसन के विरोधाभास का कहना है कि जब हम सभी समूहों को एक साथ जोड़ते हैं और डेटा को समग्र रूप में देखते हैं, तो जो सहसंबंध हमने पहले देखा था, वह उल्टा हो सकता है। यह सबसे अधिक बार गुप्त चर के कारण होता है जिसे माना नहीं गया है, लेकिन कभी-कभी यह डेटा के संख्यात्मक मानों के कारण होता है।

instagram viewer

उदाहरण

सिम्पसन के विरोधाभास को थोड़ा और समझने के लिए, आइए निम्नलिखित उदाहरण देखें। एक निश्चित अस्पताल में, दो सर्जन हैं। सर्जन ए 100 रोगियों पर काम करता है, और 95 जीवित रहते हैं। सर्जन बी 80 रोगियों पर काम करता है और 72 जीवित रहते हैं। हम इस अस्पताल में होने वाली सर्जरी के बारे में विचार कर रहे हैं और ऑपरेशन के माध्यम से जीना कुछ महत्वपूर्ण है। हम दो सर्जनों में से बेहतर का चयन करना चाहते हैं।

हम डेटा को देखते हैं और यह गणना करने के लिए उपयोग करते हैं कि सर्जन ए के रोगियों के कितने प्रतिशत उनके ऑपरेशन से बच गए और इसकी तुलना सर्जन बी के रोगियों की उत्तरजीविता दर से की।

  • 100 में से 95 मरीज सर्जन ए के साथ बचे, इसलिए 95/100 = उनमें से 95% बच गए।
  • सर्जन बी में 80 में से 72 मरीज बचे थे, इसलिए उनमें से 72/80 = 90% बच गए।

इस विश्लेषण से, हमें किस सर्जन को अपना इलाज करना चाहिए? ऐसा लगता है कि सर्जन ए सुरक्षित दांव है। लेकिन क्या यह वास्तव में सच है?

क्या होगा अगर हमने डेटा में कुछ और शोध किया और पाया कि मूल रूप से अस्पताल ने विचार किया था दो अलग-अलग प्रकार की सर्जरी, लेकिन फिर इसके प्रत्येक पर रिपोर्ट करने के लिए सभी डेटा को एक साथ लम्प किया सर्जन। सभी सर्जरी समान नहीं होती हैं, कुछ को उच्च जोखिम वाली आपातकालीन सर्जरी माना जाता है, जबकि अन्य एक अधिक नियमित प्रकृति के थे जिन्हें पहले से निर्धारित किया गया था।

सर्जन ए ने जिन 100 रोगियों का इलाज किया, उनमें से 50 को उच्च जोखिम था, जिनमें से तीन की मृत्यु हो गई। अन्य 50 को नियमित माना जाता था और इनमें से 2 की मृत्यु हो गई। इसका मतलब यह है कि, एक नियमित सर्जरी के लिए, सर्जन ए द्वारा इलाज किए गए एक रोगी में 48/50 = 96% जीवित रहने की दर है।

अब हम सर्जन बी के आंकड़ों पर अधिक ध्यान से देखते हैं और पाते हैं कि 80 रोगियों में से 40 को उच्च जोखिम था, जिनमें से सात की मृत्यु हो गई। अन्य 40 रूटीन थे और केवल एक की मृत्यु हुई। इसका मतलब है कि सर्जन बी के साथ एक मरीज की नियमित सर्जरी के लिए 39/40 = 97.5% जीवित रहने की दर है।

अब कौन सा सर्जन बेहतर लगता है? यदि आपकी सर्जरी एक रूटीन है, तो सर्जन बी वास्तव में बेहतर सर्जन है। यदि हम सर्जनों द्वारा की जाने वाली सभी सर्जरी को देखते हैं, तो ए बेहतर है। यह काफी उलट है। इस मामले में, शल्य चिकित्सा के प्रकार का गुप्त परिवर्तन सर्जनों के संयुक्त डेटा को प्रभावित करता है।

सिम्पसन के विरोधाभास का इतिहास

सिम्पसन के विरोधाभास का नाम एडवर्ड सिम्पसन के नाम पर रखा गया है, जिन्होंने पहली बार 1951 के पेपर "द इंटरप्रिटेशन ऑफ इंटरेक्शन इन कॉन्टीनेंसी टेबल्स" में इस विरोधाभास का वर्णन किया था रॉयल स्टैटिस्टिकल सोसाइटी का जर्नल. पियर्सन और यूल ने सिम्पसन की तुलना में आधी सदी पहले एक समान विरोधाभास देखा था, इसलिए सिम्पसन के विरोधाभास को कभी-कभी सिम्पसन-यूल प्रभाव भी कहा जाता है।

खेल के आंकड़ों के रूप में विविध क्षेत्रों में विरोधाभास के कई व्यापक अनुप्रयोग हैं बेरोजगारी का डेटा. किसी भी समय डेटा एकत्र किया जाता है, इस विरोधाभास को दिखाने के लिए देखें।