एप्लाइड (प्रायौगिक) ए.आई. के लिए 12 कदम

Hindi translation of “12 Steps to Applied AI

Cassie Kozyrkov
11 min readDec 10, 2019

हिंदी अनुवाद: अभिजित कुमार (Abhijit Kumar)

मूल रचना: कैसी कॉज़ीरकोव (Cassie Kozyrkov)

संपादिका: प्रियंका वरगड़ीआ (Priyanka Vergadia)

इस लेख में हम मशीन लर्निंग (यन्त्र -अधिगम ) और आर्टिफिशियल इंटेलिजेंस (A.I.) परियोजना में खराब आंकड़ों की आदतों से छुटकारा पाने की 12 कदम की कार्यपद्धति प्रस्तुत करेंगे। वस्तुतः यह 13 कदम की कार्यपद्धति है , इसलिए हम शून्य से गिनती शुरू करेंगे।

(सभी लिंक आपको एक ही लेखक के लेखों में ले जाते हैं।)

व्यवहार में आपको कई पुनरावृत्ति और पीछे हटने की आवश्यकता होगी, लेकिन आपका कोई भी नया कदम पिछले कदम को पूरा करने की पुरजोर कोशिश बगैर शुरू नहीं होना चाहिए|

कदम 0: वस्तु-स्थिति और व्यवस्था का निर्धारण

क्या आप ऐसे कई छोटे फ़ैसलों की पहचान कर सकते हैं जिनमें आपको वास्तव में एम.एल./ए.आई. की मदद चाहिए? क्या इन फ़ैसलों के निर्धारण में गैर-एम.एल./ए.आई. तकनीक बेकार साबित हुई हैं ? क्या आपके पास सीखने के लिए डेटा (आँकड़ा ) है? क्या आपके पास हार्डवेयर तक पहुंच है? यदि नहीं, तो आप यह परियोजना शुरू मत करो।

महत्वपूर्ण युक्ति: ए.आई. का उपयोग वरिष्ठ पदाधिकारियों के द्वारा शौकिया तौर पर अनुपुयक्त समस्याओं के हल में बहुत महँगा साबित होता है। इसके बजाय, हल करने के लिए एक अच्छी समस्या ढूंढें और सबसे उपयुक्त समाधान का उपयोग करें। यदि आप इसे ए.आई. के बिना कर सकते हैं, तो बेहतर है। /एम.एल./ए.आई. उन स्थितियों के लिए है, जहां दूसरे दृष्टिकोण से आपको वह प्रदर्शन नहीं मिलता है, जिसकी आपको आवश्यकता है। यह उपयोगी है और यह यहाँ लम्बे समय तक प्रयोग में रहेगा , लेकिन यह सब कुछ के लिए नहीं है।

संसाधन:

कदम 1: अपने उद्देश्यों को परिभाषित करें

स्पष्ट रूप से व्यक्त करें कि आपकी परियोजना के लिए सफलता का क्या अर्थ है। आपका एम.एल./एआई सिस्टम आपके लिए लेबलों (सूचकों) के एक समूह को बनाएगा : आप जिस कार्य को निर्धारित करेंगे उस पर आप उसके प्रदर्शन का मूल्यांकन कैसे करेंगे? उत्पादन प्रारम्भ करने लायक होने के लिए न्यूनतम स्वीकार्य प्रदर्शन क्या है? उत्पादन के लायक होने के लिए उसका प्रदर्शन कितना आशाजनक होना चाहिए?

महत्वपूर्ण युक्ति: हमें यह सुनिश्चित करना चाहिए कि उद्देश्यों का निर्धारण व्यवसाय को सबसे अच्छी तरह से जानने और सबसे तेज निर्णय लेने वाले लोग करें , न कि सबसे अच्छे समीकरण ज्ञान वाले । इस कदम को छोड़ देना या सही अनुक्रम में पालन नहीं करना डेटा साइंस (आँकड़ा विज्ञान) परियोजना की विफलता का प्रमुख कारण है। हमें यह गलती भूल के भी नहीं करनी चाहिए।

संसाधन:

कदम 2: डेटा तक पहुंच प्राप्त करें

इंस्टांस (उदाहरण )आईडी और उनके कुछ फीचर्स (गुण /विशेषता) को इकट्ठा करने के लिए प्रक्रिया और कोड बनाएं। सुपरवाइज़ड (पर्यवेक्षित ) या सेमिसुपरवाइज़ड (अर्ध-पर्यवेक्षित )लर्निंग के लिए सही लेबल (सूचक)की भी ज़रूरत होती है। व्यवहार में, लेबल (सूचकों ) इक्कठा करने का कार्य विषय विशेषज्ञों द्वारा कुछ अंतराल के बाद बार-बार किया जाता है।

महत्वपूर्ण युक्ति: वास्तविक डेटा (आँकड़े ) खरीदने या खुद से इक्कठा करने से पहले नकली या कृत्रिम रुप से उत्पादित डेटा के साथ प्रयोग एवं अनुसंधान पर विचार करें।

संसाधन:

कदम 3: डेटा (आँकड़े )को विभाजित करें

कुछ डेटा को अलग रख लें जिनके उपयोग से बाद में आपके पास यह जाँचने का अवसर हो कि आपके पैटर्न (साँचे )के आधार पर बनाये गये नुस्ख़े ने आपके डेटा (आँकड़ों ) के ऊपर कितनी अच्छी तरह से काम किया है। आपके नुस्ख़े की सफ़लता के लिए यह महत्वपूर्ण है कि आप उसके प्रदर्शन का मूल्यांकन उन नूतन एवं प्रासंगिक डेटा (आँकड़ों )के साथ करें जिनका उपयोग आपने किसी और चीज के लिए नहीं किया है।

आप अपने डेटा को 3 डेटासेट (आँकड़ा-समूह) में विभाजित करें: ट्रेनिंग (प्रशिक्षण), सत्यापन और परीक्षण। (आप बाद में अपने प्रशिक्षण डेटासेट को अपने मॉडल (प्रतिमान) फिटिंग और डीबगिंग (दोषमार्जन) के लिए दो टुकड़ों में विभाजित करेंगे, लेकिन अभी इसके बारे में चिंता न करें।)।

महत्वपूर्ण युक्ति : हमें बुनियादी ढांचे के स्तर पर डेटा के विभाजन और टेस्ट डेटा (परीक्षण आँकड़ा) के उपयोग पर उपयुक्त नियंत्रण की प्रकिया स्थापित करनी चाहिए।

संसाधन:

  • जानें कि हम अपने डेटा (आंकड़ों ) को क्यों विभाजित करते हैं।

कदम 4: अपने डेटा का अन्वेषण करें

अब हम एनालिटिक्स (वैश्लेषिकी) की बात करेंगे! अपने डेटा के कुछ अंश (सभी नहीं!) को देखें। अपने ट्रेनिंग डेटासेट (प्रशिक्षण आँकड़ा-समूह) के प्लाट( चित्र या रूप-रेखा) का उपयोग कर आंकड़ों के दोषमुक्त होने की जाँच करें। आंकड़ों का अन्वेषण कर उनके फ़ीचर्स (विशिष्ट गुणों) की पहचान भी करें। यह हमें हमेशा याद रखना चाहिए कि वास्तविक दुनिया से संग्रहित डेटा में गड़बड़ी होने की पूरी संभावना होती है, इसलिए हमें किसी और कुछ पर भी भरोसा नहीं करना चाहिए। इसके बजाय, हमें अपने डेटासेट को अपने छात्र (मशीन) को पढ़ाने के लिए एक पाठ्यपुस्तक के रूप में सोचना चाहिए। केवल एक मूर्ख शिक्षक ही अपने छात्रों को पढ़ने के लिए कोई ऐसा पाठ्यपुस्तक प्रदान करेगा जिसका उसने भली-भाँति अध्ययन नहीं किया हो।

महत्वपूर्ण युक्ति: अपने ट्रेनिंग डेटासेट को साफ़ करने के लिए लिखे गए कोड को सत्यापन और परीक्षण डेटासेट कोड के ऊपर भी जरूर लागू करें, परन्तु यह ध्यान रखें की आप उनका उपयोग अन्वेषण के लिए नहीं करें।

संसाधन:

कदम 5: अपने उपकरण तैयार करें

इस कदम पर आप एम.एल. / ए.आई. टूलबॉक्स का उपयोग कर के बहुत सारे पैटर्न-खोज एल्गोरिदम को अपने डेटा पर चलाने की कोशिश करेंगे।अपने डेटा के स्वरुप को उन पैकेजों के स्वीकार्य रूप में होने की अपेक्षा न करें — आपको अपने डेटा को उन एल्गोरिदम के स्वीकार्य रूप में लाने के लिए उपयुक्त सेटअप और कोड के इस्तेमाल की आवश्यकता होगी।

महत्वपूर्ण युक्ति: हमेशा मौजूदा पैकेज चलाने की कोशिश करें, खुद से पहिया को फिर से बनाने सोचने में कोई बुद्धिमत्ता नहीं है। यह सुझाव शोधकर्ताओं (जिसका काम नए पहियों का आविष्कार करना शामिल है) के अनुरूप ए.आई. कक्षाओं में सिखाई गई वृत्ति के विपरीत है। इसलिए यदि आप अकादमिक प्रकृति के हैं तो अपनी खुद की आदतों से लड़ने के लिए तैयार रहें।

संसाधन:

  • ए.आई. अनुसंधान और प्रयुक्त ए.आई. के बीच महत्वपूर्ण अंतर
  • एम.एल./ए.आई. एल्गोरिदम कैसे काम करते हैं?
  • हर कोई TensorFlow के बारे में बात कर रहा है, लेकिन यह क्या है?

कदम 6: कुछ मॉडलों को प्रशिक्षित करने के लिए अपने उपकरण का उपयोग करें

इस कदम पर हम आँकड़ों (डेटा) में विभिन्न प्रतिरूपों (पैटर्न्स)को खोजेंगे और उनका उपयोग निर्णय में सहायक रेसिपी (नुस्ख़े या व्यंजन-विधि) बनाने में करेंगे। अपने प्रशिक्षण डेटा को कई भागों में विभाजित करें । इनमें से कुछ का उपयोग कदम 4 में तैयार किए गए एल्गोरिदम के माध्यम से कुछ पैटर्न्स को ढूंढने और उन पैटर्नों को व्यंजन-विधि में बदलकर उपयुक्त मॉडल फिट करने के लिए करें। अपने प्रशिक्षण डेटा के बाकी भागों में इस मॉडल के प्रदर्शन का मूल्यांकन करें। अधिक आशाजनक एल्गोरिदमों की दिशा में पुनरावृत्ति करें और साथ-साथ इन आशाजनक एल्गोरिदमों में थोड़ा -थोड़ा बदलाव लाकर अपने डेटा पर उनके प्रदर्शन का फिर से मूल्यांकन करें।

महत्वपूर्ण युक्ति: सिंगल होल्डआउट सेट के बजाय क्रॉस-वैलिडेशन का इस्तेमाल हमें पहले पायदान पर ले जाने में मदद करेगा।

संसाधन:

(जल्द ही आ रहा है।)

कदम 7: डिबग, विश्लेषण और ट्यून करें

यदि आप जानना चाहते हैं कि आपका मॉडल आपको बकवास प्रदर्शन क्यों दे रहा है, तो अपने होल्डआउट (डीबगिंग) डेटासेट पर उन्नत एनालिटिक्स की ओर रुख करें। इससे आप आगे क्या प्रयास करें, इसकी आपको प्रेरणा मिलती है। यहां आपको जो संकेत मिलेगा वह आमतौर पर आपको अलग-अलग फ़ीचर्स को इंजीनियर करने या अपने डेटा पर चलाने लिए नए एल्गोरिदम पैकेज तैयार करने के लिए कहता है।

महत्वपूर्ण युक्ति: इस चरण में हाइपरपैरामीटर ट्यूनिंग करें। “हाइपरपैरामीटर” और “एल्गोरिदम” में वही सम्बन्ध है जो “तापमान डायल” और “टोस्टर “ में । इस बारे में बहुत ज्यादा चिंता न करें ठीक उसी तरह जब आप पहली बार ब्रेड टोस्ट करने की कोशिश करते हैं, तो “तापमान डायल” के बारे में ज्यादा नहीं सोचते लेकिन जब एक बार आपको यकीन हो जाता है कि यह टोस्टर आपके काम के लिए उपयुक्त है तो आप निश्चित रूप से उस डायल के उपयुक्त तापमान गणना में अपना समय निवेश करते हैं।

संसाधन:

कदम 8: अपने मॉडलों को मान्य करें

आप अपने डिबगिंग डेटा के साथ जो कुछ भी चाहें कर सकते हैं परन्तु आपको अपने सत्यापन डेटासेट से खिलवाड़ की अनुमति नहीं है क्योंकि ऐसा करने से ओवरफिटिंग के खिलाफ आपकी लड़ाई में इसकी विश्वसनीयता खत्म हो जाती है। आपको केवल प्रदर्शन मीट्रिक देखने की अनुमति है। सत्यापन कदम को आप एक सुरक्षित स्थान के रूप में सोचें जहाँ से आप महसूस कर सकते हैं कि मॉडल की अंतिम परीक्षा में कैसा प्रदर्शन होगा लेकिन अगर आपको फिर से शुरू करने की आवश्यकता महसूस होती है तो आप अपनी सीख के साथ फिर से शुरुआत कर सकते हैं। जब आप सुनिश्चित हों कि आपके पास उपयुक्त मॉडल है तभी सत्यापन कदम से आगे बढ़ें।

महत्वपूर्ण युक्ति: कई एम.एल./ए.आई. नौसीखिये विशेषज्ञों को लगता है कि वे सत्यापन कर रहे हैं जब कि वे वास्तव में डीबगिंग कर रहे हैं। यह बुरा अभ्यास परीक्षण विफलता की संभावना को बहुत बढ़ा देता है। यह स्कूल की परियोजनाओं के लिए चलता है, जहां कोई भी बड़े नुकसान की संभावना नहीं है, लेकिन यह दर्दनाक है जब यह भूल आपके व्यावसायिक प्रोजेक्ट को डूबो देती है। ऐसे अनुभवहीन इंजीनियरों पर नजर रखें जो यह नहीं समझते कि सत्यापन डेटा समूह के साथ डिबगिंग करने का परिणाम रूसी रूले खेलने की तरह है।

संसाधन:

  • वेलिडेशन (सत्यापन) डेटा साइंस इतिहास की वह महत्वपूर्ण खोज है जिसने एम.एल. / ए.आई. क्रांति को जन्म दिया।

कदम 9: अपने मॉडल का परीक्षण करें

सच्चाई से सामने का क्षण! परीक्षण वह जगह है जहाँ आपको पता चलता है कि आपके सबसे अच्छे मॉडल का प्रदर्शन 100% प्राचीन उपलब्ध डेटा पर अच्छा है या नहीं। ऐसा कोई तरीका नहीं है जिससे वे मॉडल के वास्तविक दुनिया में उपलब्ध डेटा पर सामान्यीकरण के परिणाम के सम्बन्ध में खा दे सकते हैं क्योंकि न तो इंजीनियरों और न ही मॉडल ने कभी इस डेटा को देखा है।इन आंकड़ों में प्रदर्शन का एक सांख्यिकीय परीक्षण ही आपके मॉडल की गुणवत्ता का सबसे भरोसेमंद संकेत है ,जो आप प्राप्त कर सकते हैं। नकारात्मक पक्ष यह है कि आप केवल एक बार परीक्षण डेटा का उपयोग कर सकते हैं। इसलिए आप सत्यापन डेटा का उपयोग सारे बुरे संकेतों की पहचान के लिए करते हैं।

यदि आप परीक्षण पास करते हैं, तो आप अपने प्रोटोटाइप मॉडल का लाइव, उत्पादन-योग्य संस्करण बनाने के लिए इंजीनियरिंग संसाधनों का निवेश करेंगे। यदि आप विफल होते हैं, तो आपको फिर से सोचने की जरूरत है।

महत्वपूर्ण युक्ति: परीक्षण विफल होने का मतलब है कि आप अपने एम.एल. / ए.आई. प्रोजेक्ट को समाप्त कर सकते हैं। इसमें निराश होने की जरूरत नहीं है। उचित डिबगिंग और सत्यापन के लिए हमने जो भी प्रयास किया था वह हमें गलत मार्ग से मुक्ति दिलाने के लिए था। इसलिए हमें परीक्षा परिणामों को बिना किसी जिरह के स्वीकार करना चाहिए। इस नियम का एकमात्र अपवाद विशेषाधिकार वाली वह स्थिति है जब हम आसानी से अधिक डेटा एकत्र कर सकते हैं । यह आपको अपनी परियोजना को एक नए, अनपेक्षित परीक्षण डेटासेट के साथ जारी रखने की अनुमति देता है। हालांकि परीक्षण में विफल रहने वाले मॉडल को हमें त्याग कर नयी राह पर चलना होगा।

संसाधन:

कदम 10: अपने सिस्टम का उत्पादन करें

इस कदम पर, आप अपने प्रोटोटाइप को एक ऐसे ए.आई./एम.एल. सिस्टम में बदल देंगे, जिसमें लाइव रहने और आपके उत्पादन कोड के साथ अच्छी तरह से खेलने की क्षमता है। यह एक नैपकिन पर नुस्खा लिखने जितना आसान हो सकता है और जिसका उपयोग आप निर्णय में मदद लेने के लिए कर सकते हैं। यह एक स्वचालित रूप से प्रशिक्षित होने की क्षमता वाले ऐसे स्केलेबल मॉडल, जिसमें प्रतिकूल हमलों का सामना करनेवाला अंतर्निहित सुरक्षा जाल हैं और एक विशाल कोडबेस के ऊपर डिज़ाइन किया गया है , जैसा जटिल भी हो सकता है। ये काम बिल्कुल नया है ,क्योंकि इनमें से कोई भी काम प्रोटोटाइप प्रशिक्षण चरण में शामिल नहीं किया गया था । इसलिए अभी आगे बहुत काम है।

महत्वपूर्ण युक्ति: आपका मॉडल संभवतः पृथक रूप में मौजूद नहीं होगा, इसलिए आप उन सिस्टम और प्रक्रियाओं की तलाश करें जो आश्चर्यजनक तरीके से आपके द्वारा प्रभावित हो सकते हैं। उनकी विश्वसनीयता और प्रासंगिकता के बारे में ध्यान से सोचें। (दूसरे शब्दों में, यदि आप चीन की दुकान के बीच में एक बहुत विश्वसनीय बैल बनाने वाले हैं, तो चीन की दुकान के लिए कुछ बदलाव प्रबंधन पर विचार करें।)

संसाधन:

(जल्द ही आ रहा है।)

चरण 11: सुरक्षित रूप से लॉन्च करने के लिए लाइव (जीवन्त) प्रयोग करें।

एक बार जब आप अपने मॉडल को लाइव चलाने में सक्षम बना लेते हैं, तो इसे एक बार में गेट से बाहर न जाने दें। धीरे-धीरे रैंप करें और यह सत्यापित करने के लिए प्रयोग करें कि इसे वास्तविक दुनिया में तैनात करना एक अच्छा विचार है या नहीं । यदि यह जीवंत प्रयोग आपको इसे बंद करने के लिए कहता है, तो आपको यही करना चाहिए। (हम सभी ने उस डरावनी फिल्म को देखा है।)

क्या आप घबराए हुए हैं कि आपका सारा काम बेकार जाने वाला है? आपको होना भी चाहिए। आप अब तक अपनी परियोजना के साथ प्यार में डूब चुके हैं परन्तु आपके सपनों को कुचलने के लिए चरण 9 और 11 मौजूद हैं। इसलिए आपको पूर्ववर्ती चरणों में अधिक सावधान रहने की जरूरत है।

हम एम.एल ./ ए.आई. सिस्टम के प्रति आपके अनपेक्षित माता-पिता की प्यार भरी भावनाओं के कारण जहरीले दुष्परिणाम नहीं चाहते हैं। ये बाधाएं उच्च गुणवत्ता मानकों को सुनिश्चित करने के लिए हैं ।

महत्वपूर्ण युक्ति: आपको पहले ऐसे बुनियादी ढांचे के निर्माण की आवश्यकता हो सकती है जो आपको लाइव सांख्यिकीय प्रयोगों को चलाने की सुविधा देता है, अन्यथा आप सुरक्षित रूप से लॉन्च करने में सक्षम नहीं होंगे। इस का एक भाग ऐसे कोड लिखने की जरूरत है जो आपको अनियमित रूप से कुछ निर्णय एम.एल. / ए.आई. सिस्टम तो कुछ आपके अगले सर्वश्रेष्ठ विकल्प (जो मैनुअल हो सकते हैं) द्वारा तय करने देने की क्षमता प्रदान करता है।

संसाधन:

(जल्द ही आ रहा है।)

कदम 12: मॉनिटर करें और हमेशा के लिए बनाए रखें …

आप लॉन्च के बाद सिस्टम को खुद अपने भरोसे चलने के लिए नहीं छोड़ सकते हैं । जैसे-जैसे समय आगे बढ़ता है और ब्रह्मांड बदलता है, आपको इसे सुरक्षित और विश्वसनीय बनाए रखने के लिए प्रयास करते रहना होगा। यह ऐसा उपहार है जो आपको अधिक काम देता रहता है।

अपने जीवन काल के दौरान विश्वसनीय बनाए रखने के लिए रख-रखाव की बेहतर योजना , सिस्टम मॉनीटरिंग की एनालिटिक्स, मानक डॉक्यूमेंटेशन और पर्याप्त हेडकाउंट की जरूरत है।

महत्वपूर्ण युक्ति: यदि आप एक बड़े पैमाने पर उत्पादन ए.आई./एम.एल. सिस्टम का निर्माण करते हैं, तो आप इनपुट डाटा (आगत आँकड़ा)में बदलाव और अन्य आश्चर्य की निगरानी के काम करने वाले विश्लेषकों को टीम में अवश्य रखें।

संसाधन:

(जल्द ही आ रहा है)

उपर्योक्त इन्फोग्राफिक संस्करण उनके लिए है जो इसे प्यार करते हैं। ज़ूम करने के लिए एक नए टैब में खोलें।

मशीन लर्निंग और ए.आई. में एल्गोरिदम के एक समूह के अलावा बहुत कुछ है।

सारांश

मुझे आशा है कि आप देख सकते हैं कि मशीन लर्निंग में गणितीय एल्गोरिदम के एक समूह की तुलना के अलावा बहुत कुछ है । इसलिए उन पाठ्यक्रमों द्वारा बेवकूफ़ नहीं बनाया जाए जो केवल एल्गोरिथ्म सामान सिखाते हैं। व्यावसायिक समस्याओं को हल करने के लिए ए.आई. को लागू करने की कला को निम्नलिखित कदमों में संक्षिप्त रूप से व्यक्त कर सकते हैं:

कदम 0–1 सही प्रश्न पूछना

कदम 2–4 उपयोगी डेटा प्राप्त और तैयार करना

कदम 5–7 प्रयोग के लिए उपलब्ध डेटा में पैटर्न खोजना

कदम 8–9 यह जाँचना कि पैटर्न नए पर काम करते हैं डेटा

कदम 10 उत्पादन-तैयार प्रणाली का निर्माण करना

कदम 11 यह सुनिश्चित करना कि लॉन्च करना एक अच्छा विचार है

कदम 12 एक उत्पादन एम.एल. सिस्टम को समय के साथ विश्वसनीय बनाए रखना

इन विषयों में गहरा गोता लगाने के लिए मैं आपके साथ हूं! यह सूची गहरी गोता ब्लॉग विषयों की तालिका के रूप में है जिसे मैं 2020 में अपने लेखन में प्राथमिकता दूँगी (जिसे हिंडसाइट वर्ष के रूप में भीजाना जाता है)। जितना अधिक आप इस ब्लॉग पोस्ट को अपने दोस्तों के साथ साझा करते हैं, उतना ही अधिक समय मैं आपको नए अध्याय लिखने के लिए समर्पित करते रहूँगी। बने रहें!

--

--

Cassie Kozyrkov

Head of Decision Intelligence, Google. This account is for translated Hindi versions of my English language articles. twitter.com/quaesita