आइडियल इंटेलिजेंट ड्राइविंग टीम के साथ बातचीत: स्वायत्त ड्राइविंग का “अंतिम उत्तर” क्या है?

2013 में, स्वायत्त ड्राइविंग अभी भी एक बहुत ही अत्याधुनिक और सेक्सी अवधारणा थी, कुछ साल पहले वर्तमान एजीआई और मेटावर्स की तरह, इंटरनेट कंपनियों के पूरे जोरों पर होने के युग में, Tencent ने इसके बारे में बात करने के लिए हर साल एक WE सम्मेलन आयोजित किया कुछ तारे और समुद्री विषय, जैसे जीन संपादन, मस्तिष्क-कंप्यूटर इंटरफ़ेस, अंतरिक्ष अन्वेषण, आदि।

पहली बार मैं "स्वायत्त ड्राइविंग" की अवधारणा के संपर्क में 2013 में पहले Tencent WE सम्मेलन में आया था। उस समय, एक अतिथि ने निम्नलिखित विचार व्यक्त किए:

  • तकनीकी समस्याओं को हल करना कठिन नहीं है, लेकिन कानूनी मुद्दों को हल करना कठिन है।
  • दस साल के भीतर उपभोक्ता सेल्फ-ड्राइविंग कारें खरीद सकेंगे।
  • यदि मशीन द्वारा दिए गए निर्णय की सटीकता 95% तक पहुँच जाती है, तब भी यह मनुष्यों की तुलना में बेहतर और तेज़ हो सकती है।

दस साल की अवधि आ गई है, और ये शब्द आम तौर पर सच हो गए हैं जब गाजर रन पहले से ही कई शहरों में बड़े पैमाने पर सड़क पर है, मुख्यधारा के नए पावर ब्रांडों के उच्च-अंत मॉडल में उच्च-स्तरीय बुद्धिमान ड्राइविंग क्षमताएं हैं, और। टेस्ला FSD V12 संस्करण लॉन्च किया गया है। टेस्ला की रोबोटैक्सी रिलीज़ होने वाली है। ऑटोनॉमस ड्राइविंग तकनीक L2+ स्तर से L4 स्तर तक बढ़ रही है। "बैठकर कार नहीं चलाई जा सकती" दूर नहीं है।

एक मिनट रुकिए, जब मैं यह तस्वीर निकालूंगा तो आपको क्या प्रतिक्रिया देनी चाहिए?

यह गुआंगज़ौ शहर में दैनिक यातायात की स्थिति का एक सामान्य दृश्य है: न केवल मोटर वाहन लेन बड़ी संख्या में दो-पहिया इलेक्ट्रिक स्कूटरों से भरी हुई हैं, बल्कि बेहद कम गति पर चलने वाली इलेक्ट्रिक व्हीलचेयर भी मोटर वाहन लेन पर चल रही हैं।

इस समय, स्मार्ट ड्राइविंग के फायदे और चुनौतियाँ एक साथ परिलक्षित होती हैं: फायदा यह है कि स्मार्ट ड्राइविंग में कोई भावना नहीं होती है, गुस्सा नहीं होता है, और सड़क क्रोध से ग्रस्त नहीं होता है, चुनौती धीमी इलेक्ट्रिक व्हीलचेयर और दो-पहिया है; स्मार्ट ड्राइविंग के लिए बैटरी कारें तेजी से दौड़ती हैं और मोटरवे पर आक्रमण करती हैं, इसकी भविष्यवाणी करना और संभालना बहुत कठिन परिदृश्य है।

वास्तव में, दस साल पहले स्वायत्त ड्राइविंग के विकास की भविष्यवाणियां ज्यादातर एक तर्क पर आधारित थीं: सड़क पर कारों और लोगों को यातायात नियमों का पालन करना चाहिए, लाल बत्ती पर रुकना चाहिए और हरी बत्ती पर गाड़ी चलानी चाहिए, और कोई हानिकारक लोग मोटर पर दिखाई नहीं देंगे वाहन लेन.

लेकिन जब निर्माता उपभोक्ताओं को बुद्धिमान ड्राइविंग फ़ंक्शन वाली कारें वितरित करते हैं, तो कारों को जिस स्थिति का सामना करना पड़ता है, वह ऊपर की तस्वीर है: सड़क मेरा घर है, और यातायात नियमों की अनदेखी की जाती है।

क्लासिक स्मार्ट ड्राइविंग तर्क: "धारणा – योजना – नियंत्रण"

वर्तमान मुख्यधारा के बुद्धिमान ड्राइविंग समाधान, चाहे उच्च परिशुद्धता मानचित्र समाधान या मानचित्र-कम समाधान, सभी सड़क स्थितियों और संबंधित उपायों को समाप्त करने और अधिक से अधिक हासिल करने के लिए, विभिन्न सड़क परिदृश्यों के आधार पर नियम लिखने के लिए बड़ी संख्या में इंजीनियरों पर निर्भर करते हैं। यथासंभव बुद्धिमान ड्राइविंग व्यवहार।

हालाँकि, वास्तविक सड़क की स्थिति न केवल जटिल और संपूर्ण होना असंभव है, बल्कि वास्तविक दुनिया भी लगातार बदल रही है, और किसी भी समय नए सड़क दृश्य दिखाई देते हैं। इसलिए, बुद्धिमान ड्राइविंग का पिछला अनुसंधान और विकास एक "अनंत युद्ध" था।

उदाहरण के लिए, जुलाई से पहले, कुछ कार कंपनियां राउंडअबाउट में प्रवेश करने और बाहर निकलने के दृश्य पर विजय प्राप्त कर सकीं क्योंकि दृश्य जटिल था, धारणा सीमित थी, और योजना बनाना और निर्णय लेना कठिन था।

इसे सीधे शब्दों में कहें तो, टेस्ला के FSD V12 संस्करण में "एंड-टू-एंड" तकनीकी समाधान को अपनाने से पहले, लगभग सभी स्मार्ट ड्राइविंग समाधानों को तीन प्रमुख मॉड्यूल में संक्षेपित किया जा सकता है: "धारणा – योजना – नियंत्रण"। विभिन्न प्रकार के दृश्य, जैसे तिहाई का क्लासिक नियम: राजमार्ग दृश्य, शहरी दृश्य और पार्किंग दृश्य।

इन बड़े दृश्यों को विभाजित और विभाजित किया जा सकता है। बुद्धिमान ड्राइविंग इंजीनियर दृश्यों के अनुसार नियम कोड लिखते हैं, कार के लिडार, मिलीमीटर वेव रडार, कैमरा और पोजिशनिंग सिस्टम सड़क, पर्यावरण और स्थान की जानकारी को समझने और रिकॉर्ड करने के लिए एक साथ काम करते हैं, और फिर बीईवी ( बर्ड्स-आइज़-व्यू) तकनीक या ओसीसी (ऑक्यूपेंसी नेटवर्क) तकनीक या अन्य प्रौद्योगिकियां इन सेंसरों द्वारा प्राप्त जानकारी का उपयोग "वास्तविक दुनिया का आभासी प्रक्षेपण" बनाने के लिए करती हैं जिसे बुद्धिमान ड्राइविंग सिस्टम द्वारा समझा जा सकता है। विश्व प्रक्षेपण", एक उचित यात्रा मार्ग और आंदोलन योजना की योजना बनाई जाती है, और फिर नियंत्रण निर्णय लिया जाता है। अंत में, कार निर्णय का जवाब देती है, जिससे "धीमी गति से चलें, बाईं ओर दिशा बदलें, बाएं यू-टर्न लेन लें अग्रिम, आपातकालीन ब्रेक से बचने के लिए यदि दो-पहिया बैटरी कार सड़क के बीच में प्रवेश करती है, तो चलते रहें और यू-टर्न लें यह एक बुद्धिमान ड्राइविंग व्यवहार है।

▲ जियू ऑटो ओसीसी नेटवर्क अधिभोग आरेख

यदि स्मार्ट ड्राइविंग ओसीसी ऑक्युपेशन नेटवर्क तकनीक का उपयोग करती है, तो हम एक सादृश्य बना सकते हैं। स्मार्ट ड्राइविंग सिस्टम में, बाहरी दुनिया "माइनक्राफ्ट" की तरह होती है, जो वर्गों (वोक्सल्स) से बनी होती है। सैद्धांतिक रूप से सड़क पर कोई चौराहा नहीं होगा, और कार साहसपूर्वक आगे बढ़ सकती है यदि उसके सामने एक छोटा स्थिर चौराहा है, तो हो सकता है कि आइसक्रीम की बाल्टी सड़क के बीच में भटक गई हो दाहिनी ओर एक लंबी, धीमी गति से चलने वाली पट्टी, यह सिर्फ पैदल चलने वालों के लिए हो सकती है। यदि यह बाईं लेन में तेजी से चलने वाला एक बहुत बड़ा आयताकार ब्लॉक है, तो यह एक बड़ा ट्रक हो सकता है।

"धारणा – योजना (निर्णय) – नियंत्रण" के इस सामान्य तर्क के तहत, चाहे वह उच्च-परिशुद्धता मानचित्रों पर आधारित पिछला समाधान हो, या बाद में मैपलेस एनओए (स्वचालित नेविगेशन सहायता) जो एकाधिक सेंसर फ़्यूज़न और उच्च स्थानीय कंप्यूटिंग पर अधिक निर्भर करता है पावर ड्राइविंग) समाधान इस बुनियादी तर्क से विचलित नहीं होते हैं और इंजीनियरों का काम भी प्रत्येक मॉड्यूल में अपने संबंधित कर्तव्यों का पालन करता है।

"एंड-टू-एंड" के उद्भव तक।

"एंड-टू-एंड" क्या है?

कृत्रिम बुद्धिमत्ता में तीन ऐतिहासिक घटनाएँ हैं जिन्होंने व्यापक सामाजिक चर्चा को जन्म दिया है।

पहली बार 1997 में आईबीएम के शतरंज रोबोट "डीप ब्लू" ने शतरंज के मास्टर गैरी कास्पारोव को हराया था लेकिन अगर आप इस समय "डीप ब्लू" को देखेंगे तो आपको लगेगा कि यह उतना स्मार्ट नहीं है भंडारण उपकरण। हम बड़ी मात्रा में शुरुआती और अंतिम गेम शतरंज रिकॉर्ड एकत्र करते हैं, और फिर खेलने का सबसे उपयुक्त तरीका चुनने के लिए कुशल खोज एल्गोरिदम और मूल्यांकन प्रणाली का उपयोग करते हैं।

दूसरे शब्दों में, जब डीप ब्लू शतरंज खेलता है, तो मध्यवर्ती निर्णय मनुष्यों के लिए समझाने योग्य और तार्किक रूप से स्पष्ट होते हैं।

फिर गो के क्षेत्र में, जो शतरंज से भी अधिक जटिल है, डीपमाइंड के अल्फ़ागो ने ली सेडोल और के जी को हराया, और घोषणा की कि कृत्रिम बुद्धिमत्ता का स्तर सभी मानव शतरंज खिलाड़ियों से कहीं अधिक है।

अल्फ़ागो का तर्क शतरंज के रिकॉर्ड को खोजना और मिलान करना नहीं है, आखिरकार, गो में बोर्ड ग्रिड और शतरंज के टुकड़ों की संख्या शतरंज की तुलना में बहुत अधिक है, और वर्तमान कंप्यूटर सभी संभावनाओं की गणना नहीं कर सकते हैं। लेकिन तंत्रिका नेटवर्क की गहन शिक्षा के आधार पर, अल्फ़ागो अपने आप सीख सकता है और विकसित हो सकता है, और यह जान सकता है कि जीत के करीब पहुंचने के लिए आगे कैसे खेलना है, अल्फ़ागो के खेलने के तरीके मानव सोच तर्क से पूरी तरह से अलग हैं, लेकिन इसमें क्या हुआ मध्य?, कृत्रिम बुद्धिमत्ता विशेषज्ञ इसका तर्क जानते हैं।

फिर चैटजीपीटी का उदय हुआ। बड़ी भाषा मॉडल प्रौद्योगिकी के इनपुट और आउटपुट के बीच, एक "ब्लैक बॉक्स" है जिसे कृत्रिम बुद्धि विशेषज्ञों के लिए भी समझाना मुश्किल है। प्रश्न पूछने और चैटजीपीटी के बीच वास्तव में क्या हुआ, यह मनुष्य भी सटीक रूप से नहीं बता सकते हैं उत्तर।

इसे रूपक के रूप में उपयोग करने के लिए, बुद्धिमान ड्राइविंग तकनीक पहले "धारणा – योजना (निर्णय) – नियंत्रण" के अनुसंधान और विकास तर्क पर आधारित थी, अल्फ़ागो के कन्वेन्शनल न्यूरल नेटवर्क (सीएनएन) के समान द्वि-आयामी संरचना को संसाधित कर सकती है शतरंज की बिसात और स्थानिक विशेषताएं निकालें; मूल्य नेटवर्क और नीति नेटवर्क निर्णय लेने को अनुकूलित करने के लिए सुदृढीकरण सीखने और मोंटे कार्लो ट्री खोज तकनीक के अलावा योजना और निर्णय लेने की सुविधा प्रदान कर सकते हैं।

▲ आदर्श स्मार्ट ड्राइविंग एंड-टू-एंड आर्किटेक्चर आरेख

बुद्धिमान ड्राइविंग तकनीक में "एंड-टू-एंड" चैटजीपीटी के पीछे बड़ी भाषा मॉडल तकनीक के समान है, कच्चे सेंसर डेटा (जैसे कैमरे, मिलीमीटर-वेव रडार, लिडार इत्यादि) से अंतिम नियंत्रण निर्देश (जैसे त्वरण) तक , ब्रेक लगाना, आदि) स्टीयरिंग, आदि)। बेशक, प्रत्यक्ष वाहन नियंत्रण की यह विधि इस स्तर पर अभी भी बहुत कट्टरपंथी है, इसलिए आदर्श एंड-टू-एंड समाधान केवल प्रक्षेपवक्र को आउटपुट करना है, लेकिन वाहन नियंत्रण से पहले अभी भी कई बाधाएं और अनावश्यक उपाय हैं। इस पद्धति का लक्ष्य सिस्टम आर्किटेक्चर को सरल बनाना और पूरे कार्य को एक एकल तंत्रिका नेटवर्क या मॉडल के माध्यम से पूरा करना है। यह अब इसके पीछे बड़े पैमाने पर दृश्य नियम कोड पर निर्भर नहीं है।

जिस तरह बड़े भाषा मॉडल ने पहले बड़ी संख्या में मापदंडों पर जोर दिया था, एंड-टू-एंड के पीछे मल्टी-मोडल मॉडल में भी मात्रात्मक परिवर्तन की ऐसी प्रक्रिया है जिससे गुणात्मक परिवर्तन होता है, टेस्ला ने एंड-टू-एंड का उपयोग करने का बीड़ा उठाया है FSD V12 पर प्रौद्योगिकी, और मस्क बस यह कहें:

1 मिलियन वीडियो स्लाइस के साथ प्रशिक्षण मुश्किल से पर्याप्त है; 2 मिलियन थोड़ा बेहतर है; 3 मिलियन वाह (वाह) होंगे;

हालाँकि, जो लोग अक्सर चैटजीपीटी या अन्य जेनरेटिव एआई टूल का उपयोग करते हैं, वे पाएंगे कि ये टूल अविश्वसनीय हैं और अक्सर आत्मविश्वास से गलत उत्तर देते हैं, जिसे "भ्रम" कहा जाता है।

आम तौर पर कंप्यूटर पर एआई टूल के बिना सोचे-समझे सवालों के जवाब देने के कोई विनाशकारी परिणाम नहीं होते हैं, लेकिन बुद्धिमान ड्राइविंग जीवन सुरक्षा से संबंधित है। ड्राइविंग व्यवहार के लिए "एंड-टू-एंड" समाधान के लिए अधिक सत्यापन और बीमा उपायों की आवश्यकता होती है। और इससे भी महत्वपूर्ण बात, इंजीनियरिंग समस्याएं।

आदर्श इंटेलिजेंट ड्राइविंग टीम के साथ बातचीत: "एंड-टू-एंड" स्वायत्त ड्राइविंग के लिए एआई का वास्तविक उपयोग है

लंबे पृष्ठभूमि परिचय से गुजरने के बाद, हम अंततः मुद्दे पर पहुंच सकते हैं: आदर्श स्मार्ट ड्राइविंग टीम का साक्षात्कार करने का अवसर लेते हुए, आइए इस बारे में बात करें कि सिद्धांत से ड्राइविंग तक "एंड-टू-एंड" कैसे होता है?

आइडियल स्मार्ट ड्राइविंग के अनुसंधान एवं विकास के उपाध्यक्ष लैंग जियानपेंग ने एफ़ानेर और डोंगचेहुई को बताया:

इस वर्ष हमारी वसंत रणनीति बैठक में एक महत्वपूर्ण प्रतिबिंब यह है कि हम प्रतिस्पर्धा पर बहुत अधिक ध्यान देते हैं, उदाहरण के लिए, हम हमेशा हुआवेई पर ध्यान केंद्रित करते हैं, इसने कितने शहरों को खोला है, और वास्तव में, हम केवल संकेतकों पर ध्यान केंद्रित करते हैं उदाहरण के लिए, मैं Huawei से थोड़ा बेहतर हूं, या Huawei से थोड़ा खराब हूं, यह उपयोगकर्ताओं की वास्तविक जरूरतों का प्रतिनिधित्व नहीं करता है।

उपयोगकर्ताओं की ड्राइविंग आवश्यकताओं पर लौटते हुए, वास्तविक उपयोगकर्ता की ज़रूरतें यह नहीं हैं कि टेकओवर दर संकेतक कितना कम है। उपयोगकर्ताओं को एक अनुभवी ड्राइवर की तरह ड्राइव करने के लिए स्मार्ट ड्राइविंग की आवश्यकता होती है, और यह मानवरूपी आवश्यकता मूल नियमित और मॉड्यूलर अनुसंधान और विकास पर निर्भर करती है लागू करना कठिन है. लेकिन आदर्श आंतरिक पूर्व-अनुसंधान का "एंड-टू-एंड" बेहतर प्रदर्शन करेगा।

इसके आधार पर, एक वर्ष के भीतर, आदर्श बुद्धिमान ड्राइविंग प्रौद्योगिकी समाधान में समायोजन की तीन पीढ़ियाँ आई हैं: ग्राफ से एनपीएन (न्यूरल पूर्व नेटवर्क) से ग्राफलेस तक, और फिर एंड-टू-एंड तक।

लैंग जियानपेंग अंत से अंत तक आवश्यक अंतर बताते हैं:

सतह पर, एंड-टू-एंड एक बड़ा मॉडल है जो कई छोटे मॉडलों की जगह लेता है, वास्तव में, एंड-टू-एंड से शुरू करके, हम वास्तव में स्वायत्त ड्राइविंग करने के लिए कृत्रिम बुद्धिमत्ता का उपयोग कर सकते हैं अभी तक मामला नहीं है.

क्योंकि यह डेटा-चालित है, डेटा और मॉडल के साथ कंप्यूटिंग शक्ति का संयोजन करता है, यह एक अत्यधिक स्वचालित स्व-पुनरावृत्ति प्रक्रिया है। यह प्रक्रिया मॉडल या सिस्टम की क्षमताओं को ही दोहराती है। तो हमने पहले क्या किया? हम जो करते हैं वह सभी प्रकार के सिस्टम कार्य हैं, जैसे रैंप पर चढ़ने और उतरने का कार्य या टोल स्टेशन को पार करने का कार्य।

कार्यों और क्षमताओं में बड़ा अंतर है।

लेकिन वास्तव में, आइडियल इंटेलिजेंट ड्राइविंग समर कॉन्फ्रेंस में जारी किया गया अगली पीढ़ी का ऑटोनॉमस ड्राइविंग सिस्टम एक "एंड-टू-एंड + वीएलएम (विजुअल लैंग्वेज मॉडल)" डुअल-सिस्टम समाधान है।

चूँकि इसका आधार एक अनुभवी ड्राइवर की तरह स्मार्ट ड्राइविंग करना और जितना संभव हो उतना मानवीय होना है, तो हमें इस बात पर विचार करना होगा कि लोग काम कैसे करते हैं। यहां सैद्धांतिक आधार नोबेल पुरस्कार विजेता डैनियल कन्नमैन की "सोच, तेज़ और धीमी प्रणालियों का सिद्धांत है "तेज़ और धीमी":

मानव तेज़ प्रणाली 95% परिदृश्यों में उच्च दक्षता बनाए रखने के लिए अंतर्ज्ञान और वृत्ति पर निर्भर करती है; मानव धीमी प्रणाली सचेत विश्लेषण और सोच पर निर्भर करती है, जो 5% परिदृश्यों की उच्च ऊपरी सीमा का परिचय देती है।

आदर्श "एंड-टू-एंड + वीएलएम" दोहरी प्रणाली का एंड-टू-एंड एक तेज़ सिस्टम है, जिसमें दैनिक ड्राइविंग परिदृश्यों में जानकारी को तुरंत संसाधित करने की क्षमता है, जबकि वीएलएम दृश्य भाषा मॉडल में तार्किक रूप से सोचने की क्षमता है जटिल परिदृश्यों में.

यह तेज़ सिस्टम कितना तेज़ है?

आइडियल इंटेलिजेंट ड्राइविंग टेक्नोलॉजी आर एंड डी के प्रमुख जिया पेंग ने कहा:

अब हमारी एंड-टू-एंड देरी सेंसर से नियंत्रण आउटपुट तक 100 मिलीसेकंड से अधिक के बराबर है, 200 मिलीसेकंड से कम, अतीत में, उप-मॉड्यूल को संभवतः 300 से लगभग 400 मिलीसेकंड से अधिक मिलता था।

यह धीमी प्रणाली क्यों आवश्यक है?

लैंग जियानपेंग ने समझाया:

अब हम इसकी कुछ (वीएलएम) क्षमताओं की खोज कर रहे हैं। अभी बताए गए मुख्य और सहायक लेन चयन में इसका कम से कम कुछ मूल्य है। इसके बिना, कोई सुरक्षा समस्या नहीं होगी। L3 स्तर की बुद्धिमान ड्राइविंग के लिए हमारी मुख्य सहायक भूमिका शुरू से अंत तक है, जो सामान्य व्यवहार के तहत व्यक्ति की ड्राइविंग क्षमता का प्रतिनिधित्व करती है।

लेकिन जब L4 स्तर की बुद्धिमान ड्राइविंग की बात आती है, तो VLM या बड़े मॉडलों को इसमें अधिक महत्वपूर्ण भूमिका निभानी चाहिए। यह 90% से अधिक समय तक काम नहीं कर सकता है, लेकिन यह निर्धारित करता है कि सिस्टम L3 स्तर का है या L4 का स्तर का एक प्रमुख बिंदु यह है कि वीएलएम वास्तव में इस अज्ञात परिदृश्य से निपट सकता है।

आदर्श यह है कि इसे एंड-टू-एंड मॉडल के साथ नहीं किया जाना चाहिए, बल्कि पूरे दृश्य को कवर करने के लिए अधिक विश्वसनीय दोहरे-प्रणाली समाधान को अपनाना है, जो ड्राइविंग व्यवहार को अधिक मानवीय और अधिक समान बनाने के लिए जिम्मेदार है एक अनुभवी ड्राइवर, जबकि वीएलएम विज़ुअल लैंग्वेज मॉडल निचली सीमा का समर्थन करता है, ऊपरी सीमा को भी बढ़ा सकता है, और स्वायत्त ड्राइविंग के उच्च स्तर तक पहुंचने की उम्मीद है।

करीब से देखने पर, कट्टरपंथी एंड-टू-एंड के विपरीत, जो अंततः कार नियंत्रण के लिए जिम्मेदार है, आदर्श एंड-टू-एंड वास्तव में कार को सीधे नियंत्रित नहीं करता है, बल्कि आउटपुट प्रक्षेपवक्र स्तर तक पहुंचता है।

जिया पेंग ने कहा:

हमारा एंड-टू-एंड मॉडल प्रक्षेपवक्र तक पहुंचता है, और प्रक्षेपवक्र के बाद कुछ सुरक्षा जेबें जोड़ी जाती हैं, क्योंकि मॉडल के ऊपरी सीमा तक पहुंचने से पहले, अभी भी कुछ चीजों से निपटना होता है, जैसे कि स्टीयरिंग व्हील को मोड़ना जिससे छुटकारा पाना मुश्किल हो जाता है यह।

वास्तविक बुद्धिमान ड्राइविंग प्रक्रिया में, दोनों प्रणालियाँ एक ही समय में भी काम करती हैं। जिया पेंग ने विस्तार से बताया कि दोनों प्रणालियाँ एक साथ कैसे काम करती हैं:

ये दोनों सिस्टम वास्तविक समय में चल रहे हैं, और एक साथ चलना एंड-टू-एंड है क्योंकि मॉडल छोटा है, इसकी आवृत्ति अपेक्षाकृत अधिक है, जैसे कि एक दर्जन हर्ट्ज़ पर चलना। इसके अलावा, मॉडल के आकार में बहुत अधिक संख्या में पैरामीटर हैं, 2.2 बिलियन पैरामीटर यह वर्तमान में लगभग 3 से 4 हर्ट्ज पर चल सकता है, और यह वास्तव में हर समय चल रहा है।

वीएलएम निर्णय लेने के परिणाम संदर्भ बिंदुओं पर भेजता है, उदाहरण के लिए, जब ईटीसी राजमार्ग में प्रवेश करती है, तो कार के लिए यह निर्धारित करना वास्तव में मुश्किल होता है कि मुझे कौन सी लेन लेनी चाहिए या ईटीसी? वीएलएम इस समय हमेशा मौजूद रहा है। यदि आप ईटीसी चुनना चाहते हैं, तो आप ईटीसी पथ ले सकते हैं। यदि आप मैन्युअल जाना चाहते हैं, तो आप मैन्युअल पथ ले सकते हैं। हालांकि, यह निर्णय परिणामों और संदर्भ प्रक्षेप पथों को अंत तक ले जाता है -टू-एंड मॉडल। इस जानकारी का उपयोग एंड-टू-एंड मॉडल के अनुमान के बाद किया जाता है।

वास्तव में, वीएलएम दृश्य भाषा मॉडल सहायक जानकारी है, अंतिम प्रक्षेपवक्र परिणाम मॉडल तर्क का परिणाम है, और इसे अपनाए जाने की एक निश्चित संभावना है।

इंटेलिजेंट ड्राइविंग के क्षेत्र में एंड-टू-एंड इतनी बड़ी लहर क्यों पैदा कर सकता है? या फिर इसका कारण इसके पीछे मौजूद अपार संभावनाएं और "अंतिम उत्तर" ढूंढने में इसका दिशात्मक महत्व है।

संक्षेप में, इस योजना में, हर कोई क्षमताओं की सीमा तक पहुंचने से बहुत दूर है, और प्रौद्योगिकी अन्वेषण और इंजीनियरिंग अभ्यास जंगल क्षेत्र में प्रवेश कर चुके हैं।

जिया पेंग ने दोहरी प्रणालियों के सिद्धांतों और संभावनाओं को आगे समझाया:

वास्तव में, लोग दोहरी प्रणाली हैं। हालांकि भौतिक संरचना दोहरी प्रणाली के रूप में इतनी स्पष्ट नहीं है, जिस तरह से लोग सोचते हैं वह एक दोहरी प्रणाली है, इसलिए उस समय हमारे पास वास्तविक सामान्यीकरण क्षमताओं के आधार पर एक और जोड़ने का विचार था तार्किक सोच क्षमता के लिए एक प्रणाली के रूप में, वीएलएम स्वाभाविक रूप से दिमाग में आता है।

हालाँकि वीएलएम कार को सीधे नियंत्रित नहीं करता है, लेकिन यह निर्णय लेने की सुविधा प्रदान करेगा।

भविष्य में यह चीज़ कैसे विकसित होगी? शायद कंप्यूटिंग शक्ति में वृद्धि के साथ, उदाहरण के लिए, टेस्ला एफएसडी संस्करण 12.3 से 12.5 में, पैरामीटर 5 गुना बढ़ गए हैं, जो एक बड़े मॉडल का समर्थन कर सकते हैं।

मुझे लगता है कि भविष्य में दो रुझान होंगे। पहला यह है कि मॉडल स्केल बड़ा हो जाएगा। सिस्टम 1 और सिस्टम 2 अभी भी दो एंड-टू-एंड मॉडल प्लस वीएलएम हैं वर्तमान में अपेक्षाकृत शिथिल रूप से युग्मित है और भविष्य में इसकी तुलना कसकर युग्मित की जा सकती है।

दूसरे, हम मल्टी-मॉडल मॉडल के मौजूदा बड़े-मॉडल विकास रुझान से भी सीख सकते हैं। वे इस तरह की देशी मल्टी-मोडैलिटी की ओर बढ़ रहे हैं, जो भाषा और भाषण, दृष्टि और लिडार दोनों कर सकता है भविष्य के बारे में सोचने के लिए.

हमारा प्रतिमान (एल4 स्तर की स्वायत्त ड्राइविंग) हासिल करने में हमारा समर्थन करने में सक्षम होना चाहिए, क्योंकि हम पहले ही रोबोट सन्निहित बुद्धि में इसके अनुप्रयोग का प्रोटोटाइप देख चुके हैं, मानव सोच प्रक्रिया का जिक्र करते हुए, चीजों का यह सेट वह हो सकता है जिसे हम आगे बढ़ाना चाहते हैं .परम उत्तर.

अंतिम उत्तर का अर्थ है कि हम वास्तविक कृत्रिम बुद्धिमत्ता बनाने के लिए इस सिद्धांत और इस ढांचे का उपयोग करते हैं।

लेकिन अंतिम उत्तर के बारे में बात करने से पहले, जिया पेंग ने बताया कि क्यों केवल एंड-टू-एंड ही "द्वीप के चारों ओर प्रवेश और निकास" की स्मार्ट ड्राइविंग समस्या को हल कर सकता है:

यदि यह एक खंडित (बुद्धिमान ड्राइविंग समाधान) है, तो सामने धारणा है। यू-टर्न बनाने के लिए विभिन्न धारणाओं की आवश्यकता होती है, यू-टर्न को विभिन्न चौराहों पर फिट नहीं किया जाना चाहिए वही, और वक्रता वे सभी अलग-अलग हैं, इसलिए आपके लिए सभी राउंडअबाउट्स को घुमाने के लिए कोड के एक सेट का उपयोग करना मुश्किल है। बहुत सारे प्रकार हैं।

राउंडअबाउट के बारे में एक दिलचस्प कहानी भी है। जब हमारे पास (मॉडल डेटा शामिल) लगभग 800,000 क्लिप (वीडियो क्लिप) थे, तो हम राउंडअबाउट से नहीं गुजर सके, फिर हमें अचानक पता चला कि एक दिन हमने 1 मिलियन क्लिप (खिला) लीं। यह इसे अपने आप कर सकता है, मुझे लगता है कि 1 मिलियन (वीडियो क्लिप) में कुछ राउंडअबाउट डेटा है।

मॉडल वास्तव में बहुत शक्तिशाली है। आप इसे जो भी डेटा फीड करेंगे, यह उसे सीख सकता है। यह मॉडल का आकर्षण है, मुझे लगता है कि यदि आप हमारा वर्तमान एंड-टू-एंड संस्करण खोलते हैं, तो आप पाएंगे कि ईटीसी इसे पास कर सकता है अपने आप में, लेकिन समस्या यह है कि अब यह नहीं पता कि मैं कौन सी सड़क लेना चाहता हूं, चाहे वह ईटीसी सड़क हो या कृत्रिम सड़क, यह यादृच्छिक रूप से एक का चयन करेगा, जिससे आपको बाद में असुरक्षित महसूस होगा यह है कि वीएलएम इसे यह मार्गदर्शन दे सकता है क्योंकि वीएलएम चीनी अक्षरों और एलईडी संकेतकों को समझ सकता है।

एंड-टू-एंड सैद्धांतिक भाग के क्या और क्यों के संबंध में, अब हमारे पास डेटा और मॉडल होने के बाद, हम वास्तव में शुरू करते हैं, यानी, यह वास्तविक बड़ी परीक्षा है।

आदर्श कार निर्माण कार्यशाला

"एंड-टू-एंड मॉडल का प्रशिक्षण अमृत बनाने से अलग नहीं है।"

लैंग जियानपेंग ने ऐ फैनर और डोंग चेहुई को एक एंड-टू-एंड मॉडल के प्रशिक्षण के बारे में एक बहुत ही विचित्र कहानी सुनाई:

इस साल की शुरुआत में, जब हमने पहली बार इस परियोजना पर काम करना शुरू किया, तो हमने पाया कि मॉडल को प्रशिक्षित करने के बाद, सामान्य रूप से गाड़ी चलाना ठीक था, हालांकि, लाल बत्ती की प्रतीक्षा करते समय, कार हमेशा अजीब व्यवहार करती थी लेन। हमें नहीं पता क्यों।

बाद में हमें एहसास हुआ कि जब हम एंड-टू-एंड मॉडल का प्रशिक्षण कर रहे थे, तो हमने लाल बत्ती से पहले इंतजार कर रहे बहुत सारे डेटा को हटा दिया था, हमें लगा कि दसियों सेकंड या एक मिनट तक इंतजार करने के बाद डेटा बेकार था। लेकिन बाद में मुझे पता चला कि यह डेटा बहुत महत्वपूर्ण है। इसने इस मॉडल को सिखाया कि कभी-कभी आपको धीमी गति से चलने के बाद प्रतीक्षा करने की आवश्यकता नहीं होती है।

इस लघु कहानी से पता चलता है कि डेटा काफी हद तक मॉडल की गुणवत्ता निर्धारित करता है, लेकिन मॉडल का आकार सीमित है, इसलिए मॉडल को प्रशिक्षित करने के लिए कौन सा डेटा फ़ीड करना वास्तव में मुख्य कार्यों में से एक है।

लैंग जियानपेंग ने एक सादृश्य दिया:

एंड-टू-एंड मॉडल का प्रशिक्षण प्राचीन कीमिया से अलग नहीं है। प्राचीन समय में, बारूद शोधन मोनोनिट्रेट, डाइसल्फ़ाइड और चारकोल पर केंद्रित था, और उत्पादित विस्फोटक अपेक्षाकृत शक्तिशाली थे। अन्य अनुपात भी आग भड़काने में सक्षम हो सकते हैं।

हालाँकि, कार निर्माताओं के लिए जो एंड-टू-एंड मॉडल को प्रशिक्षित करना चाहते हैं, "कीमिया" सिर्फ एक रूपक है, न कि एक विशिष्ट परियोजना कार्यान्वयन विधि। डेटा कैसे प्राप्त करें, इसका चयन कैसे करें और इसे कैसे प्रशिक्षित करें, यह सब वैज्ञानिक है समस्याएँ।

सौभाग्य से, आइडियल के कुछ जन्मजात फायदे हैं, उदाहरण के लिए, इसकी कारें अच्छी तरह से बिक रही हैं, और इसकी बिक्री की मात्रा अक्सर नई पावर कार कंपनियों में पहले स्थान पर है। सड़क पर 800,000 से अधिक लिडियल कारें हैं, और प्रत्येक में 40,000 से 50,000 अतिरिक्त जुड़ती हैं। प्रति माह, ये वाहन एक अरब किलोमीटर से अधिक डेटा प्रदान करते हैं।

इसके अलावा, आइडियल लंबे समय से डेटा के महत्व से अवगत है और उसने डेटा के लिए टूल चेन जैसी बुनियादी क्षमताओं का निर्माण किया है, उदाहरण के लिए, आइडियल के बैकएंड डेटाबेस ने "पास में छाते लेकर गुजरने वाले पैदल यात्री" वाक्य को खोजने के लिए एक पैराग्राफ खोज लागू की है। बरसात के दिन लाल बत्ती की स्टॉप लाइन, आप संबंधित डेटा पा सकते हैं, इसके पीछे कुछ छोटे क्लाउड मॉडल हैं, जैसे डेटा माइनिंग मॉडल और दृश्य समझ मॉडल।

लैंग जियानपेंग का यहां तक ​​​​मानना ​​है कि इन डेटाबेस की टूल श्रृंखला और बुनियादी ढांचा क्षमताएं, एक अर्थ में (महत्वपूर्ण), मॉडल की क्षमताओं से भी अधिक हैं, क्योंकि इन अच्छे बुनियादी ढांचे और डेटा के बिना, मॉडल कितना भी अच्छा क्यों न हो, यह होगा इसे प्रशिक्षित करना संभव नहीं है.

अंतर्निहित तकनीकी समाधानों में बदलाव का मतलब काम करने के तरीकों में बदलाव भी है, जब एक खराब मामला खोजा जाता है, तो आदर्श आंतरिक "ट्राएज डेस्क" प्रणाली में मॉडल स्वचालित रूप से विश्लेषण करेगा कि यह किस प्रकार की परिदृश्य समस्या से संबंधित है और "ट्राएज सुझाव" देगा। फिर समस्या को हल करने के लिए मॉडल प्रशिक्षण पर वापस लौटें।

इसमें हमारे काम करने के तरीके में बदलाव भी शामिल है। जो लोग मूल रूप से विशिष्ट समस्याओं का समाधान करते थे, वे अब समस्याओं को हल करने के लिए उपकरण डिजाइन करने वाले लोग बन गए हैं।

"निदान और उपचार" की दक्षता में सुधार करने के लिए, आइडियल आंतरिक रूप से एक ही समय में कई मॉडलों को प्रशिक्षित करता है, यह प्रक्रिया "कीमिया" की अवधारणा पर लौटती है, जिया पेंग ने समझाया:

मॉडल प्रशिक्षण के दो मुख्य पहलू हैं। एक है डेटा रेसिपी। मामले को हल करने के लिए समान परिदृश्यों में कितना जोड़ा जाना चाहिए? यह एक जानकारी है कि अलग-अलग परिदृश्यों में अलग-अलग डेटा आवश्यकताएं होती हैं। दूसरा बिंदु मॉडल का हाइपर-पैरामीटर है। नया डेटा जोड़ने के बाद, मॉडल पैरामीटर को कैसे समायोजित किया जाए? आम तौर पर, मॉडल के 5-6 संस्करण एक ही समय में प्रशिक्षण के लिए प्रस्तुत किए जाएंगे, और फिर देखें कि कौन सा संस्करण हल करता है समस्या और उच्च अंक।

एक ही समय में कई मॉडलों का प्रशिक्षण डेटाबेस बुनियादी ढांचे और कंप्यूटिंग शक्ति के लिए बड़ी आवश्यकताओं को सामने रखता है, इस समय, "धन शक्ति" खेल में आती है। यहां आदर्श लाभ यह है कि कारें अधिक बिकती हैं और अधिक महंगी होती हैं। नई पावर कार कंपनियों के बीच सर्वोत्तम राजस्व और सकारात्मक नकदी प्रवाह के साथ, यह इसके पीछे भारी कंप्यूटिंग पावर व्यय का समर्थन कर सकता है।

लैंग जियानपेंग ने कहा:

हमारा अनुमान है कि यदि L3 और L4 स्वायत्त ड्राइविंग हासिल की जाती है, तो वार्षिक प्रशिक्षण कंप्यूटिंग शक्ति व्यय 1 बिलियन अमेरिकी डॉलर होगा, भविष्य में हम कंप्यूटिंग शक्ति और डेटा के लिए लड़ेंगे, और जिसके पीछे हम लड़ेंगे वह पैसा या लाभप्रदता है।

जब एंड-टू-एंड मॉडल पारंपरिक बुद्धिमान ड्राइविंग तर्क "धारणा-नियोजन-नियंत्रण" में अधिकांश काम को प्रतिस्थापित करता है, तो आदर्श-संबंधित बुद्धिमान ड्राइविंग टीम का सबसे अधिक श्रम-गहन कार्य भी "सिर और पूंछ" पर केंद्रित होता है। ", सिर डेटा है, अंत सत्यापन है।

एंड-टू-एंड मॉडल और वीएलएम विज़ुअल लैंग्वेज मॉडल के दो स्पीड सिस्टम के अलावा, आइडियल के अंदर एक सिस्टम तीन भी है, जिसे प्रयोगात्मक मॉडल या विश्व मॉडल कहा जाता है, संक्षेप में, यह एक परीक्षा प्रणाली है संपूर्ण बुद्धिमान ड्राइविंग प्रणाली और सुरक्षा के स्तर का आकलन करें।

लैंग जियानपेंग ने इस परीक्षा प्रणाली की तुलना तीन प्रश्न बैंकों के संग्रह से की:

  • असली प्रश्न बैंक: सड़क पर गाड़ी चलाने वाले लोगों का सही व्यवहार
  • गलत प्रश्न बैंक: सामान्य परीक्षण और ड्राइविंग के दौरान, उपयोगकर्ता अधिग्रहण, उपयोगकर्ता निकास और अन्य व्यवहार
  • सिमुलेशन प्रश्न: सभी डेटा के आधार पर, एक उदाहरण से निष्कर्ष निकालें और विशिष्ट दोहराई गई समस्याओं के लिए आभासी समान परिदृश्य परीक्षण उत्पन्न करें।

उदाहरण के लिए, जैसा कि पहले उल्लेख किया गया है, यदि आप चाहते हैं कि आपकी स्मार्ट ड्राइविंग एक अनुभवी ड्राइवर की तरह हो, तो इस वास्तविक परीक्षण बैंक का ड्राइविंग व्यवहार आदर्श परीक्षण मॉडल में "वास्तविक परीक्षण बैंक" जैसा होना चाहिए 90 या उससे ऊपर के आंतरिक स्कोर का चयन करता है ड्राइवरों का ड्राइविंग व्यवहार, यह समूह आदर्श कार चालकों का केवल 3% है, यह उनकी ड्राइविंग की सहजता, ड्राइविंग के खतरे की डिग्री आदि पर निर्भर करेगा। उदाहरण के लिए, यदि कोई ड्राइवर अक्सर एईबी स्वचालित आपातकालीन ब्रेकिंग सक्रिय करता है, तो उसका ड्राइविंग व्यवहार बहुत कट्टरपंथी होगा।

प्रायोगिक मॉडल के व्यापक परीक्षण के बाद, "शुरुआती पक्षी उपयोगकर्ताओं" के लिए एक परीक्षण संस्करण भी होगा। इसका मतलब है कि हजारों उपयोगकर्ता कारों को स्मार्ट ड्राइविंग सिस्टम का एक नया संस्करण प्राप्त होगा, जो वास्तविक दृश्यों और परिदृश्यों में काम कर सकता है। गैर-अवधारणात्मक "छाया मोड" सड़क पर वास्तविक जीवन सत्यापन और परीक्षण करता है, जो किसी भी कार निर्माता के परीक्षण बेड़े से बड़ा है।

हजारों शुरुआती उपयोगकर्ताओं द्वारा परीक्षण और सत्यापित डेटा स्वचालित रूप से वापस भेजा जाएगा, स्वचालित रूप से विश्लेषण किया जाएगा, और परीक्षण और वितरण के एक नए दौर के लिए स्वचालित रूप से पुनरावृत्त रूप से प्रशिक्षित किया जाएगा।

दूसरे शब्दों में, डेटा अधिग्रहण, मॉडल प्रशिक्षण, प्रयोगात्मक परीक्षाएं और उपयोगकर्ता वितरण स्वचालित परिपत्र तर्क से भरी प्रक्रियाएं हैं, जिनमें बहुत कम मानवीय भागीदारी होती है।

लैंग जियानपेंग और जिया पेंग के अनुसार, "एंड-टू-एंड + वीएलएम" पर जाने के बाद, उद्योग नो मैन्स लैंड के करीब एक स्थान पर पहुंच गया है, जिसके लिए सिस्टम की क्षमताओं की ऊपरी सीमा को देखने में सक्षम नहीं होने के बारे में उत्साह है फिलहाल, लेकिन निश्चित रूप से व्यावहारिक होने की भी आवश्यकता है। उदाहरण के लिए, वर्तमान में केवल एंड-टू-एंड मॉडल प्रक्षेपवक्र को आउटपुट करता है, और प्रक्षेपवक्र के बाद नियंत्रण को सुरक्षित रखने की आवश्यकता है। एक अन्य उदाहरण कंप्यूटिंग शक्ति के बारे में सोच रहा है : पहले जितने इंजीनियरों की आवश्यकता थी, और भविष्य में उतने ही ग्राफ़िक्स कार्ड की आवश्यकता होगी।

कंप्यूटिंग शक्ति के बिना, यह सब कल्पना है।

कोई लाभ नहीं है, और कंप्यूटिंग शक्ति केवल एक कल्पना है।

आइए फिर से "अंतिम उत्तर" के बारे में बात करें: आदर्श, टेस्ला और ओपनएआई अलग-अलग रास्तों से एक ही लक्ष्य तक पहुंचते हैं

जैसा कि मस्क ने बार-बार इस बात पर जोर दिया है कि "टेस्ला एक एआई और रोबोटिक्स कंपनी है, न कि केवल एक कार कंपनी।" साक्षात्कार में, लैंग जियानपेंग और जिया पेंग ने आदर्श कार की तुलना पहियों पर चलने वाले रोबोट से की, और प्रोटोटाइप एप्लिकेशन के बारे में भी बात की। "एंड-टू-एंड + वीएलएम" ढांचे का उपयोग करते हुए ह्यूमनॉइड रोबोट जैसे सन्निहित बुद्धिमान वाहक।

टेस्ला का ऑप्टिमस रोबोट मस्क की बड़ी दृष्टि रखता है, और निश्चित रूप से एफएसडी का एक और वाहक है, क्योंकि ऑप्टिमस रोबोट अपेक्षाकृत कम जानकारी जारी करता है, लेकिन इसमें एक "एंड-टू-एंड" मॉडल है जो स्थानीय कैमरों और सेंसर इनपुट पर्यावरणीय जानकारी पर निर्भर करता है। और फिर सीधे संयुक्त नियंत्रण अनुक्रम आउटपुट करें।

इसके अलावा, ओपनएआई और एनवीआईडीआईए-निवेशित फिगर रोबोट्स ने अपना दूसरा ह्यूमनॉइड रोबोट, फिगर 02 जारी किया है, जिसमें दावा किया गया है कि यह "दुनिया में सबसे उन्नत एआई हार्डवेयर" है, जिसमें वीएलएम विज़ुअल लैंग्वेज मॉडल इसकी महत्वपूर्ण क्षमता है। अपने सिर, आगे और पीछे के धड़ पर छह आरजीबी कैमरों से सुसज्जित, चित्र 02 अपने एआई-संचालित दृष्टि प्रणाली के माध्यम से भौतिक दुनिया को समझने और समझने में सक्षम है। आधिकारिक विवरण में, चित्र 02 में "अलौकिक दृष्टि है।"

बेशक, इसमें स्वाभाविक रूप से मनुष्यों के साथ संवाद करने के लिए OpenAI द्वारा प्रदान किया गया एक बड़ा भाषा मॉडल भी है।

बिल्कुल इसी तरह, ऑप्टिमस रोबोट ने टेस्ला की कार फैक्ट्री में काम करना (और प्रशिक्षण) शुरू किया, और चित्रा 02 का भी बीएमडब्ल्यू की कार फैक्ट्री में परीक्षण और प्रशिक्षण किया गया, ये दोनों कुछ सरल कार्यों को पूरा करने में सक्षम हैं, और वे लगातार विकसित हो रहे हैं।

हालाँकि आदर्श कार, टेस्ला ऑप्टिमस रोबोट और फिगर रोबोट के बीच थोड़ा सा संबंध प्रतीत होता है, एक बार जब आप गहराई से खोजते हैं, तो अंतर्निहित तकनीकी तर्क और एआई के बारे में सोच वास्तव में एक ही लक्ष्य के लिए अलग-अलग दृष्टिकोण हैं। यह "अंतिम उत्तर" का मूल भी है। .

हमने दशकों से कृत्रिम बुद्धिमत्ता के बारे में बात की है, और अंततः ध्यान कृत्रिम बुद्धिमत्ता से बुद्धिमत्ता पर स्थानांतरित हो गया है।

भाग्य के प्लास्टिक ग्रीनहाउस में, बहुत अधिक कीटनाशकों का छिड़काव करने वाली हर गोभी ने एक बार प्रदूषण मुक्त जैविक सब्जी बनने का सपना देखा था।

# Aifaner के आधिकारिक WeChat सार्वजनिक खाते का अनुसरण करने के लिए आपका स्वागत है: Aifaner (WeChat ID: ifanr) आपको जल्द से जल्द अधिक रोमांचक सामग्री प्रदान की जाएगी।

ऐ फ़ैनर | मूल लिंक · टिप्पणियाँ देखें · सिना वीबो