ए विरोधाभास एक बयान या घटना है कि सतह पर विरोधाभासी लगता है। विरोधाभास बेतुका प्रतीत होता है की सतह के नीचे अंतर्निहित सच्चाई को प्रकट करने में मदद करता है। आंकड़ों के क्षेत्र में, सिम्पसन के विरोधाभास यह दर्शाता है कि कई समूहों के डेटा के संयोजन से किस प्रकार की समस्याएं होती हैं।
सभी आंकड़ों के साथ, हमें सावधानी बरतने की जरूरत है। यह कहां से आया? यह कैसे प्राप्त किया गया था? और यह वास्तव में क्या कह रहा है? ये सभी अच्छे प्रश्न हैं जो हमें डेटा के साथ प्रस्तुत करने के लिए पूछना चाहिए। सिम्पसन के विरोधाभास का बहुत ही आश्चर्यजनक मामला हमें दिखाता है कि कभी-कभी जो डेटा कह रहा है, वह वास्तव में ऐसा नहीं है।
विरोधाभास का अवलोकन
मान लीजिए कि हम कई समूहों को देख रहे हैं, और एक संबंध स्थापित करते हैं या सह - संबंध इनमें से प्रत्येक समूह के लिए। सिम्पसन के विरोधाभास का कहना है कि जब हम सभी समूहों को एक साथ जोड़ते हैं और डेटा को समग्र रूप में देखते हैं, तो जो सहसंबंध हमने पहले देखा था, वह उल्टा हो सकता है। यह सबसे अधिक बार गुप्त चर के कारण होता है जिसे माना नहीं गया है, लेकिन कभी-कभी यह डेटा के संख्यात्मक मानों के कारण होता है।
उदाहरण
सिम्पसन के विरोधाभास को थोड़ा और समझने के लिए, आइए निम्नलिखित उदाहरण देखें। एक निश्चित अस्पताल में, दो सर्जन हैं। सर्जन ए 100 रोगियों पर काम करता है, और 95 जीवित रहते हैं। सर्जन बी 80 रोगियों पर काम करता है और 72 जीवित रहते हैं। हम इस अस्पताल में होने वाली सर्जरी के बारे में विचार कर रहे हैं और ऑपरेशन के माध्यम से जीना कुछ महत्वपूर्ण है। हम दो सर्जनों में से बेहतर का चयन करना चाहते हैं।
हम डेटा को देखते हैं और यह गणना करने के लिए उपयोग करते हैं कि सर्जन ए के रोगियों के कितने प्रतिशत उनके ऑपरेशन से बच गए और इसकी तुलना सर्जन बी के रोगियों की उत्तरजीविता दर से की।
- 100 में से 95 मरीज सर्जन ए के साथ बचे, इसलिए 95/100 = उनमें से 95% बच गए।
- सर्जन बी में 80 में से 72 मरीज बचे थे, इसलिए उनमें से 72/80 = 90% बच गए।
इस विश्लेषण से, हमें किस सर्जन को अपना इलाज करना चाहिए? ऐसा लगता है कि सर्जन ए सुरक्षित दांव है। लेकिन क्या यह वास्तव में सच है?
क्या होगा अगर हमने डेटा में कुछ और शोध किया और पाया कि मूल रूप से अस्पताल ने विचार किया था दो अलग-अलग प्रकार की सर्जरी, लेकिन फिर इसके प्रत्येक पर रिपोर्ट करने के लिए सभी डेटा को एक साथ लम्प किया सर्जन। सभी सर्जरी समान नहीं होती हैं, कुछ को उच्च जोखिम वाली आपातकालीन सर्जरी माना जाता है, जबकि अन्य एक अधिक नियमित प्रकृति के थे जिन्हें पहले से निर्धारित किया गया था।
सर्जन ए ने जिन 100 रोगियों का इलाज किया, उनमें से 50 को उच्च जोखिम था, जिनमें से तीन की मृत्यु हो गई। अन्य 50 को नियमित माना जाता था और इनमें से 2 की मृत्यु हो गई। इसका मतलब यह है कि, एक नियमित सर्जरी के लिए, सर्जन ए द्वारा इलाज किए गए एक रोगी में 48/50 = 96% जीवित रहने की दर है।
अब हम सर्जन बी के आंकड़ों पर अधिक ध्यान से देखते हैं और पाते हैं कि 80 रोगियों में से 40 को उच्च जोखिम था, जिनमें से सात की मृत्यु हो गई। अन्य 40 रूटीन थे और केवल एक की मृत्यु हुई। इसका मतलब है कि सर्जन बी के साथ एक मरीज की नियमित सर्जरी के लिए 39/40 = 97.5% जीवित रहने की दर है।
अब कौन सा सर्जन बेहतर लगता है? यदि आपकी सर्जरी एक रूटीन है, तो सर्जन बी वास्तव में बेहतर सर्जन है। यदि हम सर्जनों द्वारा की जाने वाली सभी सर्जरी को देखते हैं, तो ए बेहतर है। यह काफी उलट है। इस मामले में, शल्य चिकित्सा के प्रकार का गुप्त परिवर्तन सर्जनों के संयुक्त डेटा को प्रभावित करता है।
सिम्पसन के विरोधाभास का इतिहास
सिम्पसन के विरोधाभास का नाम एडवर्ड सिम्पसन के नाम पर रखा गया है, जिन्होंने पहली बार 1951 के पेपर "द इंटरप्रिटेशन ऑफ इंटरेक्शन इन कॉन्टीनेंसी टेबल्स" में इस विरोधाभास का वर्णन किया था रॉयल स्टैटिस्टिकल सोसाइटी का जर्नल. पियर्सन और यूल ने सिम्पसन की तुलना में आधी सदी पहले एक समान विरोधाभास देखा था, इसलिए सिम्पसन के विरोधाभास को कभी-कभी सिम्पसन-यूल प्रभाव भी कहा जाता है।
खेल के आंकड़ों के रूप में विविध क्षेत्रों में विरोधाभास के कई व्यापक अनुप्रयोग हैं बेरोजगारी का डेटा. किसी भी समय डेटा एकत्र किया जाता है, इस विरोधाभास को दिखाने के लिए देखें।