विषय
व्यापार, सरकार और शैक्षणिक गतिविधियों को लगभग हमेशा डेटा के संग्रह और विश्लेषण की आवश्यकता होती है। संख्यात्मक डेटा का प्रतिनिधित्व करने के तरीकों में से एक ग्राफ, हिस्टोग्राम और चार्ट के माध्यम से है। ये विज़ुअलाइज़ेशन तकनीक लोगों को समस्याओं में बेहतर अंतर्दृष्टि प्राप्त करने और समाधान तैयार करने की अनुमति देती है। अंतराल, क्लस्टर और आउटलेर डेटा सेट की विशेषताएं हैं जो गणितीय विश्लेषण को प्रभावित करते हैं और दृश्य प्रतिनिधित्व पर आसानी से दिखाई देते हैं।
डेटा में छेद
अंतराल एक डेटा सेट में लापता क्षेत्रों को संदर्भित करता है। उदाहरण के लिए, यदि कोई वैज्ञानिक प्रयोग 50 डिग्री फ़ारेनहाइट से 100 डिग्री फ़ारेनहाइट की सीमा में तापमान डेटा एकत्र करता है, लेकिन 70 और 80 डिग्री के बीच कुछ भी नहीं है, जो डेटा सेट में अंतराल का प्रतिनिधित्व करेगा। इस डेटा सेट की एक लाइन प्लॉट में 50 और 70 के बीच और फिर से 80 और 100 के बीच तापमान के लिए "x" अंक होंगे, लेकिन 70 और 80 के बीच कुछ भी नहीं होगा। शोधकर्ता गहराई से खुदाई कर सकते हैं और पता लगा सकते हैं कि कुछ डेटा बिंदु क्यों नहीं दिखते हैं एक एकत्रित नमूने में।
पृथक समूह
क्लस्टर डेटा बिंदुओं के पृथक समूह हैं। लाइन भूखंड, जो डेटा सेट का प्रतिनिधित्व करने के तरीकों में से एक हैं, डेटा सेट में उनकी घटना की आवृत्ति को दर्शाने के लिए विशिष्ट संख्या से ऊपर "x" अंक के साथ लाइनें हैं। एक छोटे अंतराल या डेटा सबसेट में इन "x" निशानों के संग्रह के रूप में एक क्लस्टर को दर्शाया गया है। उदाहरण के लिए, यदि 10 छात्रों की कक्षा के लिए परीक्षा का स्कोर 74, 75, 80, 72, 74, 75, 76, 86, 88 और 73 है, तो एक लाइन प्लॉट पर सबसे "x" अंक 72- में होंगे। टू -76 स्कोर अंतराल। यह एक डेटा क्लस्टर का प्रतिनिधित्व करेगा। नोट 74 और 75 के लिए आवृत्ति दो है, लेकिन अन्य सभी अंकों के लिए, यह एक है।
चरमसीमा पर
आउटलेर चरम मान हैं - डेटा बिंदु जो डेटा सेट में अन्य मूल्यों के बाहर काफी झूठ बोलते हैं। एक डेटा सेट में संख्याओं के बहुमत की तुलना में एक बाहरी रूप से काफी कम या अधिक होना चाहिए। "चरम" की परिभाषा परिस्थिति और शोध में शामिल विश्लेषकों की आम सहमति पर निर्भर करती है। आउटलेयर खराब डेटा पॉइंट हो सकते हैं, जिन्हें शोर के रूप में भी जाना जाता है, या उनमें जांच की जा रही घटना और डेटा संग्रह पद्धति के बारे में मूल्यवान जानकारी हो सकती है। उदाहरण के लिए, यदि वर्ग स्कोर ज्यादातर 70 से 80 श्रेणी में हैं, लेकिन स्कोर के एक जोड़े 50 के दशक में हैं, तो वे आउटलेयर का प्रतिनिधित्व कर सकते हैं।
यह सब एक साथ डालें
डेटा सेट में अंतराल, आउटलेयर और क्लस्टर गणितीय विश्लेषण के परिणामों को प्रभावित कर सकते हैं। अंतराल और क्लस्टर डेटा संग्रह पद्धति में त्रुटियों का प्रतिनिधित्व कर सकते हैं। उदाहरण के लिए, यदि एक टेलीफोन सर्वेक्षण केवल कुछ क्षेत्र कोड, जैसे कम आय वाले आवास परिसरों या उच्च-अंत उपनगरीय आवासीय क्षेत्रों, और आबादी के व्यापक क्रॉस-सेक्शन का सर्वेक्षण नहीं करता है, तो संभावना है कि डेटा में अंतराल और क्लस्टर होंगे । आउटलेर्स डेटा सेट के औसत या औसत मूल्य को तिरछा कर सकते हैं। उदाहरण के लिए, चार संख्याओं - ५०, ५५, ६५ और ९ ० में सेट किए गए डेटा का औसत या औसत मूल्य ६५ है। बाह्य ९ ० के बिना, हालांकि, इसका मतलब लगभग ५। है।