स्टैटिस्टिशियन ने यह साबित किया की स्टैटिस्टिक्स बहुत बोरिंग है

Hindi translation of Statistician proves that statistics are boring

Cassie Kozyrkov
9 min readJan 10, 2021

हिंदी अनुवाद: आयुष मिश्रा, (Aayush Mishra)

मूल लेख: कैसी कॉज़ीरकोव (Cassie Kozyrkov)

संपादिका: प्रियंका वरगड़ीआ (Priyanka Vergadia)

स्टैटिस्टिक्स बोरिंग है और मैं आपको इस बात का एक लॉजिकल प्रूफ देने वाली हूं, …ताकि आपको मुझ जैसे स्टैटिस्टिशियन द्वारा उपयोग किए जाने वाले फैन्सी कैल्क्युलेशन्स की सराहना करने में मदद मिल सके। यह वो बातें हैं जिनसे आपका सामना स्टैट-101 कि पहली क्लास में होगा, तो स्टैटिस्टिक्स में दिलचस्पी रखने वालों, यह आपके लिए एक बोनस है! शुरुआत करते हैं हम इसमें इस्तेमाल होने वाले शब्दजाल (जार्गन) से:

यह स्टैटिस्टिशियन यह साबित करने वाला है कि स्टैटिस्टिक्स बोरिंग हैं। पूरी तरह से चेहरे को खींचते हुए — मैं अभी भी सीख रहा हूं कि मुझे अपने चेहरे का उपयोग कैसे करना है। इंसानियत कठिन है।एक चेहरा मेरे पीछे खींचो यहां अगर तुम चाहो तो।

एक बात बताइए पॉप्युलेशन शब्द सुनते ही सबसे पहले इन्सानों के दिमाग में क्या आता है? लोग, है न? एक नहीं दो नहीं बहुत सारे। सभी इन्सान! लेकिन क्या आपको ये पता है कि हमारे डिसिप्लिन में पॉप्युलेशन का मतलब सारी चीज़ों से है। लोग, पिक्सेल, पम्पकिन, पोकीमॉन या कुछ भी जो आपके दिमाग में आए वो सब पॉप्युलेशन ही है।

सरल भाषा में पॉप्युलेशन उन सभी चीज़ों का संग्रह है जिसमें हमारी रुचि है।

रुकिए, दो मिनट हम आगे बढ़ने से पहले एक सौदा करते हैं : अपनी पॉप्युलेशन का विवरण लिखकर, आप इस बात पर सहमती भर रहे हैं कि आपके निर्णय का आधार केवल पॉप्युलेशन, पूरी पॉप्युलेशन और कुछ नहीं बल्कि पॉप्युलेशन ही होगा। अगर आप आगे पढ़ते हैं तो, यह माना जाएगा की आपने इन सभी नियमों और शर्तों को स्वीकार कर लिया है

अब ये बताइए कि क्या आपको अपना पॉप्युलेशन ऑफ़ इंटरेस्ट चुनना चुनौतीपूर्ण लग रहा है? एक बात याद रखिए ये आपके ऊपर है की आप अपनी रुचि के अनुसार किसका चुनाव करते हैं। इसमें कोई भी चुनाव गलत या सही नहीं होता है, जब तक यह विशिष्ट और सम्पूर्ण है तब तक। तो आज का हमारा पॉप्युलेशन ऑफ़ इंटरेस्ट नीचे तस्वीर में दिए गए पेड़।

यदि इस जंगल में मौजूद सभी पेड़ मेरा पॉप्युलेशन हैं, तो फिर मैं अपना डिसीजन लेने के लिए सिर्फ उनका ही उपयोग करूंगी।

चूंकि यह मेरी पॉप्युलेशन है, इसलिए मुझे यह ध्यान में रखना चाहिए कि मेरे विश्लेषण से कोई व्यवसाय गिर नहीं जाएगा। दो चीज़ होंगी। पहली या तो मेरा निष्कर्ष इन पेड़ों पर सबसे अच्छे से लागू होगा। दूसरा ये होगा कि इन सबसे मैं कुछ नया सीख लूंगी।

कोई भी पेड़ जिसे आप यहां नहीं देख पा रहे हैं? वो आपके लिए मृत, उबाऊ है। वह हमारी पॉप्युलेशन का हिस्सा नहीं है। कोई एक पेड़? नहीं! वह भी आपके लिए मृत है। उबाऊ है। क्योंकि वह भी आपकी पूरी पॉप्युलेशन नहीं है। आपके लिए केवल वे सभी (एक साथ!) ही दिलचस्प हैं। अरे! हमारा कानूनी अनुबंध भी तो यही कहता है।

सैंपल

सैंपल, हमारी पॉप्युलेशन ऑफ़ इंटरेस्ट के कुछ हिस्सों का संग्रह है।

सैंपल, वो डेटा है जो हमारे पास है और पॉप्युलेशन वो डेटा है जो हम चाहते हैं कि हमारे पास हो।

दोनों इमेजेस में मौजूद ऑरेंज कलर के पेड़, सैम्पल कहलाएंगे। मुझे उम्मीद है कि आपके आपके अंदर एक अंतर्मन में विचार होगा कि इनमें से कौन सा सैम्पल बेहतर है। मैं अपने भविष्य के लेख में बताऊँगी कि एक अच्छा सैम्पल क्या होता है?

ऑब्जर्वेशन

ऑब्जर्वेशन, सैंपल में से लिए गए किसी एक आइटम का मेजरमेंट है।

ब्लू रंग से चिन्हित पेड़ो का जो हमने मेजरमेंट लिया वह ऑब्जर्वेशन है। सटीक भाषा कहा जाए तो “सैंपल” ऑब्जर्वेशन के समूह के लिए एक सामूहिक संज्ञा है। तकनीकी तौर पर, “सैंपल” का बहुवचन “ऑब्जर्वेशन” नहीं है, इसका अर्थ तो “ऑब्जर्वेशन के विभिन्न संग्रह” है।

स्टैटिस्टिक्स

अ..! स्टैटिस्टिक्स! ये ज़रूर कुछ महत्वपूर्ण होगा, तभी तो हमने अपने डिसिप्लिन का नाम इसके आधार पर रखा है!

स्टैटिस्टिक्स, सैंपल डेटा को संग्रहित करने का एक तरीका है।

तो….स्टैटिस्टिक्स क्या है? यह डेटा को संग्रहित करने का एक तरीका है। अब सच जानने के लिए तैयार हो जाइए। सच ये है कि स्टैटिस्टिक्स और स्टैटिस्टिक्स के विभिन्न क्षेत्र दो अलग चीज़ें हैं एल, इनके बारे में आप यहां पढ़ सकते हैं।

स्टैटिस्टिक्स के उदहारण के रूप में : अगर हमारी रुचि इन पेड़ों की लंबाई में होती, तो आप ऑरेंज रंग से चिन्हित पेड़ो की औसत लंबाई के स्टैटिस्टिक्स को देख आश्चर्यचकित नहीं होंगे। यदि आपको ऐसा लगता है, तो, आप उन सैंपल पेड़ो की ऊंचाई को भी ले सकते हैं, शीर्ष तीन खोजें, उन्हें जोड़ें, लॉग लें, नीचे दो पेड़ों की लंबाई के अंतर के स्क्वायर रूट से जोड़ें, या कुछ भी कर लें। यह भी एक तरह का स्टैटिस्टिक्स ही होगा। अब यह शायद उपयोगी हो, शायद इतना उपयोगी नहीं हो, लेकिन यह भी एक स्टैटिस्टिक्स ही है।

स्टैटिस्टिक्स बोरिंग है इसका सबूत

अच्छा मान लीजिए कि हमारी रुचि औसत पेड़ की ऊंचाई में है, जो इस सैंपल के लिए 22.5 मीटर है। क्या यह संख्या हमारे लिए दिलचस्प है?

हमारे द्वारा साइन किए गए लीगल कॉन्ट्रैक्ट के अनुसार: हमारे लिए केवल जनसंख्या ही दिलचस्प है। क्या इसका सैंपल पॉप्युलेशन है? नहीं न! इसलिए, यह हमारे लिए दिलचस्प नहीं है। हमने कुछ उबाऊ पेड़ों से कुछ उबाऊ माप लिया, फिर हमने उन उबाऊ मापों को संग्रहित किया …अब इस प्रक्रिया से जो परिणाम आएगा वह भी उबाऊ होगा।

तो यहां मैंने यह साबित कर दिया कि स्टैटिस्टिक्स उबाऊ यानी बोरिंग होता है।

ग़लत या अनुपयुक्त नाम

तो फिर क्या स्टेटिस्टिटिशियन पागल होते हैं? क्यों हमने अपने क्षेत्र का नाम इस उबाऊ नंबर के ऊपर रखा है? दरअसल, यह एक गलत नाम है।

इन दिनों हम जिस तरह से शब्दों का इस्तेमाल करते हैं, एनालिटिक्स, स्टैटिस्टिक्स की गणना के बारे में है, लेकिन स्टैटिस्टिक्स, डेटा को संग्रहित करने से कहीं ऊपर है। डेटा साइंस के उप-विषय के बारे में जानने के लिए यहां क्लिक करें।

ज्यादा शब्दों में हमारे क्षेत्र का सही नाम : द डाइजेशन ऑफ़ स्टैटिस्टिक्स होना चाहिए। लेकिन यह थोड़ा बड़ा शब्द है, इसे सरल बनाने के लिए हमने इसे छोटा कर दिया।

मैं आपको समझाती हूं।

पैरामीटर

अब आएगा इस पूरे शो का स्टार : पैरामीटर। प्रदर्शन के बाद इसे एक गुलदस्ता भी मिलने वाला है, आमतौर पर इसको अपना ग्रीक अक्षर (आमतौर पर θ) भी मिलता है। आप पैरामीटर को स्टैटिस्टिक्स का पॉप्युलेशन संस्करण के रूप में भी सोच सकते हैं — एक पैरामीटर सभी दिलचस्प डेटा का संग्रहण है, जिसे हम आम जिन्दगी में संग्रहित नहीं कर पाते हैं।

पैरामीटर आपके लिए पॉप्युलेशन का सार प्रस्तुत करता है।

चलिए अब हम इस बात से सहमत हो गए की हुए उन पेड़ों में बहुत दिलचस्पी है और अब मैं आपके लिए उन सबका सार प्रस्तुत करूंगी जिसमें आपको रुचि/दिलचस्पी है? अपने दिल को संभाल कर रखिए! आप पैरामीटर से बहुत ज्यादा उत्साहित हैं!

पैरामीटर मान से पता चला है: सभी पेड़ों की सही औसत ऊंचाई केवल 21.1 मीटर है।

ज़रा सोचिए, आज शनिवार है और आप जंगल के बीचों बीचों बीच खड़े हैं। अभी तक आपने किसी भी पेड़ को मापा नहीं है, लेकिन आप यह आंकड़ा जानने के लिए बेहद बेचैन हैं, यह वो सब कुछ है जिससे करने का आपने कभी सपना देखा था।

पैरामीटर को जानने के लिए क्या करना है?

आपको बिना किसी त्रुटि के सभी पेड़ों को मापना होगा! एक बार आप सभी का माप ले लेते हैं, तो क्या आपके पास कोई अनिश्चितता है? नहीं, आपके पास सारी जानकारी है। आप एनालिटिक्स का उपयोग कर इसे पूरा कर सकते हैं — बस औसत की गणना करके आगे बढ़ें। ऐसा करने पर स्टैटिस्टिक्स, पैरामीटर बन जाता है क्योंकि आपका सैंपल पॉप्युलेशन है। वहीं आप सही तथ्यों के साथ काम कर रहे हैं। सही और पूरा डेटा होने के कारण किसी भी जटिल गणना की आवश्यकता नहीं होगी।

मैं न्यूयॉर्क सिटी में रहती थी — अपनी पसंद से! — जहां तक ​​संभव हो पेड़ों से दूर। लेकिन जब मुझे “इन सभी पेड़ों को सही तरह से मापने” जैसा चुनौतीपूर्ण काम मिला तो बहुत आलस आने लगा। मैं भी इस पैरामीटर को जानना था, लेकिन मैं सोचने लगा कि अब, “क्या मुझे वास्तव में इसे पूरी तरह से जानने की जरूरत है या मैं केवल कुछ पेड़ों को माप सकती हूं? हो सकता है कि पूरी तस्वीर पर केवल एक आंशिक नज़र से ही मैं उस पैरामीटर के बारे में सबसे अच्छा अनुमान लगा लूं … जो सरकारी काम के लिए पर्याप्त है

“जब मैं इस तरह सोच रही हूं, तो मैं स्टेटिस्टिकली सोच रही हूं! इसका जवाब मुझे कभी पता नहीं चला। मेरी आलस्य का मतलब है कि मुझे तथ्यों या निश्चितता को छोड़ना होगा, लेकिन उम्मीद है कि मैं कुछ ऐसा करूंगा जो निर्णय लेने के लिए काफ़ी मददगार हो। मैं अभी इनका उपयोग कर कुछ महत्वपूर्ण आंकड़ा निकाल सकती हूं। इन्हीं सब चीज़ों के लिए ही तो डिसिप्लिन ऑफ़ स्टैटिस्टिक्स है।

पेड़ो को सही तरह मापने की बात से याद आया, रेडिट पर ये तस्वीर देख मुझे बहुत हंसी आई। कैप्शन में लिखा था : “मेरा भाई यार्ड में मौजूद पेड़ो को मापना चाहता था। इस तरह से उसने मापा।

नहीं से कुछ सही?

आप में से कुछ उम्मीद कर रहे होंगे कि मैं कहूंगी, “इस जादुई फॉर्मूले से आप अनिश्चितता से निश्चितता बना सकते हैं!” मैं ऐसा कुछ नहीं कहूंगी। क्योंकि ऐसा कोई जादू नहीं होता जो कुछ नहीं से कुछ बना ले।

जब हमारे पास कोई तथ्य नहीं होते हैं, तो हम डेटा के साथ कुछ एसंप्शंस को मिलाते हैं ताकि हम उचित निर्णय ले सकें।

परिकल्पना (हाइपोथेसिस)

हमारा ब्रह्मांड कैसे दिख सकता है उसको विवरण हाइपोथेसिस है, लेकिन वह सच हो ये ज़रूरी नहीं है। हमें यह पता लगाना होगा कि क्या हमारा सैंपल, हमारी हाइपोथेसिस को हास्यास्पद बना रहा है। ताकि हम ये जान सकें कि हमें हमारा तरीका बदलना चाहिए या नहीं? लेकिन यह सब इस लेखन के दायरे से बाहर है।

यहां मैं आपको कुछ अनकही बात बता रही हूं, जैसे “कुछ पेड़ों की सही औसत ऊंचाई 20 मीटर से कम है।” यह एक परिकल्पना है। आप सच्चाई जानते हैं (मैं गलत हूं!) क्योंकि आप इस उदाहरण में सर्वज्ञ हैं … लेकिन मुझे कुछ भी पता नहीं है। मेरा कथन पूरी तरह से मान्य परिकल्पना है, जिसमें बताया गया है कि वास्तविकता कैसी दिख सकती है। मुझे कुछ डेटा मिलने के बाद मैं देखती हूं कि मैं इसके बारे में क्या कर सकती हूं

एस्टीमेट एण्ड एस्टीमेटर

अगर हमें पैरामीटर पता होता, तो इस वक्त हम घर पर होते। हम इस वक्त तथ्य की तलाश कर रहे हैं, लेकिन दुर्भाग्य से हमेशा तथ्य उपलब्ध नहीं होते हैं। क्योंकि हम पैरामीटर की गणना नहीं कर सकते हैं, हम तो सिर्फ स्टैटिस्टिक्स का इस्ते हुई माल कर एक अनुमान लगा सकते हैं।

एस्टीमेट, सबसे सही अनुमान के लिए सिर्फ एक फैंसी शब्द है।

एस्टीमेट, पैरामीटर के सही मूल्य के बारे में सबसे अच्छा अनुमान लगाने के लिए सिर्फ एक फैंसी शब्द है। यह वह मूल्य है जो आपका अनुमान लेता है, जबकि एक एस्टीमेटर वह फॉर्मूला है जिसका इस्तेमाल आप उस नंबर तक पहुंचने के लिए करते हैं।

मैं आपको दिखाती हूं कि आप स्टेटिस्टिकल एस्टीमेशन में पहले से ही अद्भुत हैं। क्या आप इसके लिए तैयार हैं?

चलिए हम यह मान लेते हैं कि आप सिर्फ इतना पता है कि एक पेड़ की ऊंचाई 23 मीटर है। अब क्या आप मुझे बता सकते हैं कि सभी पेड़ों की सही औसत ऊंचाई का आपका एस्टीमेट कितना है?

23 मीटर? मेरा भी!

हमें 23 मीटर का ही अनुमान लगाना पड़ा क्योंकि हमारे पास केवल यही जानकारी थी — अगर हम कोई और अनुमान लगाते तो इसका मतलब ये होता की हमने कुछ भी बना लिया। हमें जो कुछ भी पता था वो 23 मीटर ही था, इसलिए हमने 23 मीटर का ही अनुमान लगाया। इसके अलावा कोई और अनुमान लगाने के लिए हमें और जुटानी पड़ती (जो इस उदाहरण में उपलब्ध ही नहीं थी) या हम कोई अनुमान लगा सकते थे, लेकिन उस परिस्थिति में हम तथ्य से भटक जाते।

कोई बात नहीं, हम एक और उदाहरण देखते हैं! हमारे पास सैंपल है और हम उसके बारे में बस इतना जानते हैं कि उसकी औसतन ऊंचाई 22.5 मीटर है। अब आपका क्या अनुमान होगा?

22.5 मीटर? वाह आप इसमें कितने अच्छे हैं! आपको तो किसी कोर्स की ज़रूरत ही नहीं।

यह स्टैटिस्टिक्स की कुछ टेक्स्टबुक्स — मेथड ऑफ़ मोमेंट्स एस्टीमेशन, मैक्सिमम लाइकलीहुड एस्टीमेशन आदि हैं। जब आप इन्हें पढ़ते तब आपको हर जवाब के अंत में प्रूफ में जाना पड़ता और मैंने आपको वहीं चीज़ ऐसे ही सीखा दी। वास्तविक जीवन में आपके द्वारा सामना किए गए 99% + मामलों में, बस अपने सैंपल पर काम करें जैसे कि यह आपकी पॉप्युलेशन हो और इससे जो कुछ भी मिलता है उसके साथ जा कर आपको अपना सबसे अच्छा अनुमान मिल सकता है। आपको किसी विशेष पाठ्यक्रम की आवश्यकता नहीं है। ता-दा, इसके साथ ही हमारा कोर्स यहां समाप्त होता है!

यह झूठ है कि आपको हमेशा स्टैटिस्टिक्स की ज़रूरत होती है; आपको नहीं है। यदि आप केवल इंस्पायर्ड होने के लिए एक सही अनुमान लगाने की कोशिश कर रहे हैं, तो एनालिटिक्स आपके लिए सबसे अच्छा विकल्प है। उन पी-वैल्यू से बाहर निकलें, आपको अनावश्यक तनाव लेने की आवश्यकता नहीं है।

इसके बजाए, आप इन सिद्धांतों पर जी सकते हैं: अधिक (सटीक) डेटा सबसे बेहतर और आपका अंतर्ज्ञान, सही अनुमान लगाने के लिए बहुत अच्छा, लेकिन यह जानने के लिए नहीं कि वे अनुमान कितने सही हैं।

हालांकि, मुझे ऐसा एक पल के लिए भी नहीं लगता कि मैं अपने डिसिप्लिन को कोस रही हूं। मैं एक दशक से भी अधिक समय स्टैटिस्टिक्स के अध्ययन में लगा दिया है और मुझे लगता है कि मैं पूरी तरह से पागल नहीं हूं।

जब एक स्टैटिस्टिकल दृष्टिकोण लेना उपयोगी है, बहुत उपयोगी है।

तो कब आपको इसकी सही में ज़रूरत है? कब ये आपको खुदको तकलीफ पहुंचाने से बचाएगा? इसके बारे में जानने के लिए मेरा अगला लेख “स्टैटिस्टिक्स की क्या ज़रूरत?” पढें

डेटा साइंस के सबडिसिप्लिन्स के बीच के अंतर के बारे में जानने के लिए मेरा यह लेख पढ़ें।

--

--

Cassie Kozyrkov

Head of Decision Intelligence, Google. This account is for translated Hindi versions of my English language articles. twitter.com/quaesita