समाजशास्त्र में डेटा विश्लेषण के लिए डेटा सफाई

डेटा सफाई डेटा विश्लेषण का एक महत्वपूर्ण हिस्सा है, खासकर जब आप अपना स्वयं का मात्रात्मक डेटा एकत्र करते हैं। डेटा एकत्र करने के बाद, आपको इसे कंप्यूटर प्रोग्राम में दर्ज करना होगा जैसे कि एसएएस, एसपीएसएस या एक्सेल. इस प्रक्रिया के दौरान, चाहे वह हाथ से किया जाए या कंप्यूटर स्कैनर इसे करता है, त्रुटियां होंगी। कोई फर्क नहीं पड़ता कि डेटा कितनी सावधानी से दर्ज किया गया है, त्रुटियां अपरिहार्य हैं। इसका मतलब गलत कोडिंग, लिखित कोड की गलत रीडिंग, काले निशान की गलत सेंसिंग, डेटा गायब होना और इसी तरह हो सकता है। डेटा सफाई इन कोडिंग त्रुटियों का पता लगाने और उन्हें ठीक करने की प्रक्रिया है।

डेटा की सफाई दो प्रकार की होती है जिसे डेटा सेट पर करने की आवश्यकता होती है। वे संभव कोड सफाई और आकस्मिक सफाई हैं। दोनों डेटा विश्लेषण प्रक्रिया के लिए महत्वपूर्ण हैं क्योंकि अगर नजरअंदाज कर दिया जाता है, तो आप लगभग हमेशा भ्रामक शोध खोजने का उत्पादन करेंगे।

संभव-कोड सफाई

किसी भी दिए गए चर में प्रत्येक उत्तर विकल्प से मिलान करने के लिए उत्तर विकल्पों और कोडों का एक निर्धारित समूह होगा। उदाहरण के लिए, चर लिंग प्रत्येक के लिए तीन उत्तर विकल्प और कोड होंगे: 1 पुरुष के लिए, 2 महिला के लिए और 0 बिना किसी उत्तर के। यदि आपके पास इस चर के लिए प्रतिवादी 6 के रूप में कोडित है, तो यह स्पष्ट है कि एक त्रुटि हुई है क्योंकि यह एक संभावित उत्तर कोड नहीं है। संभव-कोड की सफाई यह देखने के लिए जाँचने की प्रक्रिया है कि डेटा फ़ाइल में केवल प्रत्येक प्रश्न (संभव कोड) के लिए उत्तर विकल्पों को दिए गए कोड दिखाई देते हैं।

instagram viewer

इस प्रकार की त्रुटियों के लिए डेटा एंट्री जाँच के लिए उपलब्ध कुछ कंप्यूटर प्रोग्राम और सांख्यिकीय सॉफ्टवेयर पैकेज, जैसे ही डेटा दर्ज किया जा रहा है। यहां, उपयोगकर्ता डेटा दर्ज करने से पहले प्रत्येक प्रश्न के लिए संभावित कोड निर्धारित करता है। फिर, यदि पूर्व-परिभाषित संभावनाओं के बाहर की संख्या दर्ज की जाती है, तो एक त्रुटि संदेश दिखाई देता है। उदाहरण के लिए, यदि उपयोगकर्ता ने लिंग के लिए 6 दर्ज करने का प्रयास किया, तो कंप्यूटर बीप कर सकता है और कोड को मना कर सकता है। अन्य कंप्यूटर प्रोग्राम पूर्ण डेटा फ़ाइलों में नाजायज कोड के परीक्षण के लिए डिज़ाइन किए गए हैं। यही है, अगर उन्हें डेटा प्रविष्टि प्रक्रिया के दौरान चेक नहीं किया गया था, जैसा कि केवल वर्णित है, डेटा प्रविष्टि पूर्ण होने के बाद कोडिंग त्रुटियों के लिए फ़ाइलों की जांच करने के तरीके हैं।

यदि आप कंप्यूटर प्रोग्राम का उपयोग नहीं कर रहे हैं जो डेटा प्रविष्टि प्रक्रिया के दौरान त्रुटियों को कोड करने के लिए जाँच करता है, आप डेटा में प्रत्येक आइटम पर प्रतिक्रियाओं के वितरण की जांच करके कुछ त्रुटियों का पता लगा सकते हैं सेट। उदाहरण के लिए, आप चर के लिए एक आवृत्ति तालिका उत्पन्न कर सकते हैं लिंग और यहाँ आपको संख्या 6 दिखाई देगी जो गलत दर्ज की गई थी। तब आप डेटा फ़ाइल में उस प्रविष्टि को खोज सकते हैं और उसे ठीक कर सकते हैं।

आकस्मिक सफाई

दूसरे प्रकार का डेटा सफाई को आकस्मिक सफाई कहा जाता है और यह संभव-कोड सफाई की तुलना में थोड़ा अधिक जटिल है। डेटा की तार्किक संरचना कुछ उत्तरदाताओं की प्रतिक्रियाओं पर या कुछ चर पर कुछ सीमाएं रख सकती है। आकस्मिक सफाई यह जांचने की प्रक्रिया है कि केवल उन मामलों में जिनके पास किसी विशेष चर पर डेटा होना चाहिए, वास्तव में ऐसा डेटा है। उदाहरण के लिए, मान लें कि आपके पास एक प्रश्नावली है, जिसमें आप उत्तरदाताओं से पूछते हैं कि वे कितनी बार गर्भवती हुई हैं। सभी महिला उत्तरदाताओं के डेटा में एक कोडित प्रतिक्रिया होनी चाहिए। हालांकि, नर को या तो खाली छोड़ दिया जाना चाहिए या जवाब देने में विफल रहने के लिए एक विशेष कोड होना चाहिए। उदाहरण के लिए, यदि किसी भी पुरुष को 3 गर्भधारण के रूप में कोडित किया जाता है, तो आप जानते हैं कि कोई त्रुटि है और इसे ठीक करने की आवश्यकता है।

संदर्भ

बब्बी, ई। (2001). सामाजिक अनुसंधान का अभ्यास: 9 संस्करण। बेलमोंट, सीए: वड्सवर्थ थॉमसन।

instagram story viewer