विषय
एक आउटलाइन एक डेटा सेट में एक मूल्य है जो अन्य मूल्यों से बहुत दूर है। आउटलेर्स प्रयोगात्मक या माप त्रुटियों के कारण हो सकते हैं, या लंबी-पूंछ वाली आबादी के कारण हो सकते हैं। पूर्व मामलों में, सांख्यिकीय विश्लेषण करने से पहले आउटलेर्स की पहचान करना और उन्हें डेटा से निकालना वांछनीय हो सकता है, क्योंकि वे परिणामों को फेंक सकते हैं ताकि वे नमूना आबादी का सही प्रतिनिधित्व न करें। आउटलेयर की पहचान करने का सबसे सरल तरीका चतुर्थक विधि के साथ है।
आरोही क्रम में डेटा को क्रमबद्ध करें। उदाहरण के लिए डेटा सेट {4, 5, 2, 3, 15, 3, 3, 5} लें। सॉर्ट किया गया, उदाहरण डेटा सेट {2, 3, 3, 3, 4, 5, 5, 15} है।
मंझले को खोजो। यह वह संख्या है जिस पर आधे डेटा बिंदु बड़े और आधे छोटे होते हैं। यदि डेटा बिंदुओं की संख्या समान है, तो मध्य दो औसत हैं। उदाहरण डेटा सेट के लिए, मध्य बिंदु 3 और 4 हैं, इसलिए माध्यिका (3 + 4) / 2 = 3.5 है।
ऊपरी चतुर्थक का पता लगाएं, Q2; यह वह डेटा बिंदु है जिस पर 25 प्रतिशत डेटा बड़ा होता है। यदि डेटा सेट सम है, तो क्वार्टराइल के आसपास के 2 बिंदुओं को औसत करें। उदाहरण डेटा सेट के लिए, यह (5 + 5) / 2 = 5 है।
निचली चतुर्थक का पता लगाएं, Q1; यह वह डेटा बिंदु है जिस पर 25 प्रतिशत डेटा छोटा होता है। यदि डेटा सेट सम है, तो क्वार्टराइल के आसपास के 2 बिंदुओं को औसत करें। उदाहरण डेटा के लिए, (3 + 3) / 2 = 3।
इंटरकार्टाइल रेंज, आईक्यू प्राप्त करने के लिए उच्च चतुर्थक से निचले चतुर्थक को घटाएं। उदाहरण के लिए डेटा सेट, Q2 - Q1 = 5 - 3 = 2।
इंटरक्वेर्टाइल रेंज को 1.5 से गुणा करें। इसे ऊपरी चतुर्थक में जोड़ें और इसे निम्न चतुर्थक से घटाएं। इन मूल्यों के बाहर कोई भी डेटा बिंदु एक हल्के बाहरी है। उदाहरण सेट के लिए, 1.5 x 2 = 3; इस प्रकार ३ - ३ = ० और ५ + ३ = greater. अतः ० से कम या mild से अधिक का कोई भी मूल्य एक हल्का रूप होगा। इसका मतलब है कि 15 एक हल्के बाहरी रूप में योग्य हैं।
इंटरकार्टाइल रेंज को 3 से गुणा करें। इसे ऊपरी चतुर्थक में जोड़ें और इसे निम्न चतुर्थक से घटाएं। इन मूल्यों के बाहर कोई भी डेटा बिंदु एक चरम रूपरेखा है। उदाहरण सेट के लिए, 3 x 2 = 6; इस प्रकार 3 - 6 = -3 और 5 + 6 = 11. तो कोई भी मूल्य -3 से कम या 11 से अधिक होना एक अत्यधिक परिणाम होगा। इसका मतलब यह है कि 15 एक अत्यधिक बाहरी के रूप में योग्य हैं।