Google अपने Lyra कम बिटरेट भाषण कोडेक सार्वजनिक बनाता है

Google ने GitHub पर अपना Lyra ऑडियो कोडेक बीटा स्रोत कोड जारी किया है, जिससे सभी डेवलपर्स के लिए अविश्वसनीय गुणवत्ता कम-बिटरेट ऑडियो प्रसंस्करण उपलब्ध है। कोडेक एम्बेडेड और बैंडविड्थ प्रतिबंधित स्थितियों में सबसे अधिक उपयोगी है जहां यथासंभव डेटा को सहेजने की आवश्यकता होती है।

Lyra: लगभग कुछ भी नहीं कभी अच्छा लग रहा था

ऑडियो कोडेक संभवतम निम्नतम डेटा दर के साथ सबसे प्राकृतिक-ध्वनि भाषण प्रदान करने के सिद्धांत पर काम करता है। यह 3 kbps के साथ बिट्रेट के साथ ऑडियो प्रजनन के लगभग भयानक स्तरों को बनाने में सफल होता है। Google अपने डुओ ऐप में पहले से ही रीयल-टाइम लाइरा कम्प्रेशन का उपयोग करता है , हालाँकि आपको नियमित बैंडविड्थ ऑडियो से अंतर महसूस नहीं करने के लिए भी दोषी ठहराया जाएगा।

यह दिखाने के लिए कि अन्य कोडेक्स की तुलना में लिआरा कितना बेहतर है, Google मशीन लर्निंग कंप्रेस्ड कोडेक को अन्य 3 और 6 केबीपीएस विकल्पों की तुलना करते हुए एक ब्लॉग पोस्ट के माध्यम से उदाहरण प्रदान करता है।

यह एक रात का अंतर है, और डेवलपर्स को इन उपकरणों पर दुनिया को संचार की गुणवत्ता में सुधार करने में एक महत्वपूर्ण ड्राइवर दिया जाएगा जहां बैंडविड्थ दुर्लभ है। यह उभरते बाजारों में नए एप्लिकेशन बनाने के लिए देख रहे डेवलपर्स के लिए भी एक उत्कृष्ट प्रेरक है, कुछ ऐसा है जो Google इस वर्ष के मुफ्त आभासी Google I / O ऑनलाइन सम्मेलन में शामिल करना सुनिश्चित करता है

बीटा स्रोत कोड वर्तमान में 64-बिट आर्म डिवाइसों को ध्यान में रखकर बनाया गया है, हालांकि उदाहरण 64-बिट x86 लिनक्स सिस्टम पर भी चलेंगे। स्रोत कोड पूरी तरह से प्रलेखित प्रदान किया गया है, हालांकि यह बीटा में है, और GitHub पृष्ठ इंस्टॉलेशन निर्देश और आर्म 64-बिट लक्ष्य के लिए लिनक्स पर लाइरा बनाने का तरीका प्रदान करता है।

लाइरा बीटा स्रोत कोड प्राप्त करने के लिए, लायरा गिटहब पृष्ठ पर जाएं

लाइरा कैसे काम करती है?

जबकि वास्तविक प्रक्रिया लाइरा का उपयोग मशीन लर्निंग मॉडल के हजारों घंटे के भाषण डेटा और मौजूदा ऑडियो कोडेक प्रौद्योगिकी के अनुकूलन पर प्रशिक्षित अविश्वसनीय रूप से जटिल संयोजन है, सिद्धांत काफी सरल है।

प्रत्येक 40ms, सुविधाओं को भाषण से लिया जाता है और 3kbps तक संकुचित किया जाता है। ये विशेषताएं मानव श्रवण भाषण प्रतिक्रिया के निकटतम आवृत्ति स्पेक्ट्रम में भाषण ऊर्जा बिंदुओं का प्रतिनिधित्व करती हैं – जब हम किसी को बोलते हैं तो हमें पहचानने और समझने की आवश्यकता होती है।

ल्यारा को क्या खास बनाता है इसका प्रमुख हिस्सा यह है कि यह इस जानकारी का उपयोग कैसे करता है:

हालांकि पारंपरिक पैरामीट्रिक कोडेक्स, जो केवल भाषण महत्वपूर्ण मापदंडों से निकालते हैं जो तब प्राप्त सिग्नल पर सिग्नल को फिर से बनाने के लिए इस्तेमाल किया जा सकता है, कम बिट्रेट प्राप्त कर सकता है, लेकिन अक्सर ध्वनि रोबोट और अप्राकृतिक लगता है। इन कमियों ने उच्च गुणवत्ता वाले ऑडियो जनरेटिव मॉडल की एक नई पीढ़ी का विकास किया है, जिन्होंने न केवल संकेतों के बीच अंतर करने में सक्षम होने के साथ क्षेत्र में क्रांति ला दी है, बल्कि पूरी तरह से नए भी उत्पन्न करते हैं।

ट्रांसमिशन के बाद, लायरा ने इस प्रक्रिया का उपयोग करके जो कुछ भी याद नहीं है, उसे भरने के द्वारा तरंग का पुनर्निर्माण किया, जबकि किसी भी तरह से कम्प्यूटेशनल रूप से जटिल नहीं है।

एक ओर, यह एक तकनीकी चमत्कार है जो लगभग कहीं भी चलेगा। दूसरी ओर, मैं अभी भी 100% आश्वस्त नहीं हूं कि यह जादू टोना नहीं है।