लाइटबिट्स लैब्स और स्केलफ्लक्स ने एक100 गुना से 280 गुना प्रदर्शन वृद्धिकेवी कैश वर्कलोड के लिए स्केलफ्लक्स कम्प्यूटेशनल स्टोरेज एसएसडी से डेटा पढ़ने के लिए लाइटइंफेरा कैश सॉफ्टवेयर का लाभ उठाकर।
दोनों कंपनियों ने FarmGPU डेटा सेंटर वातावरण के भीतर तैनात GPU को KV कैश डेटा की आपूर्ति की, और Nvidia के आगामी GTC सम्मेलन में इस सफलता का प्रदर्शन करेंगे।एक केवी कैश एक जीपीयू की उच्च बैंडविड्थ मेमोरी (एचबीएम) में टोकन वेक्टर संग्रहीत करता हैएक बार एचबीएम क्षमता समाप्त हो जाने के बाद, केवी कैश डेटा ब्लॉकों की पुनः गणना की जानी चाहिए, एक ऐसी प्रक्रिया जो समय लेने वाली है और एआई प्रशिक्षण और निष्कर्ष की गति को कम करती है।यह मंदी विशेष रूप से स्पष्ट हो जाती है क्योंकि एआई कार्यभार बढ़ता है, जिससे वेक्टर उत्पन्न करने के लिए उपयोग किए जाने वाले टोकन की संख्या में तेजी से वृद्धि हुई।
केवी कैश सॉफ़्टवेयर तार्किक रूप से बाहर की ओर कैश परत का विस्तार करता हैः पहले जीपीयू सर्वर पर एक्स 86 सीपीयू और इसके डीआरएएम तक, फिर उसी एक्स 86 सिस्टम में स्थानीय एनवीएमई ड्राइव तक, और आगे बाहरी एनवीएमई एसएसडी तक।यह स्तरित विस्तार टोकन वेक्टरों को पुनः गणना करने की आवश्यकता को समाप्त करता हैजबकि एनवीएमई एसएसडी में स्वाभाविक रूप से एचबीएम या डीआरएएम की तुलना में अधिक एक्सेस विलंबता होती है, पूर्व-गणना किए गए टोकन वेक्टरों को पुनर्प्राप्त करना शून्य से उनमें से दसियों हजारों की पुनः गणना करने की तुलना में बहुत तेज है।लाइटबिट्स और स्केलफ्लक्स का दावा है कि उनका समाधान एसएसडी से केवी कैश डेटा पुनर्प्राप्ति को तेजी से तेज करता है.
लाइटबिट्स लैब्स में एआई आर्किटेक्चर के निदेशक आर्थर रासमसोन ने कहाः "हम एक प्रतिक्रियाशील कैश से एक बुद्धिमान, स्ट्रीम किए गए डेटा परत में व्युत्पन्न स्मृति को बदल रहे हैं।
कैसे?
केवल महत्वपूर्ण डेटा को पूर्व-प्राप्त करके और इसकी आवश्यकता होने से पहले उच्च गति आरडीएमए पर जीपीयू को वितरित करके, हम स्टॉल को समाप्त करते हैं जो पारंपरिक रूप से लंबे संदर्भ प्रदर्शन को सीमित करते हैं।परिणाम कम टाइम-टू-फर्स्ट-टोकन (TTFT) है, वास्तविक दुनिया के भार के तहत अधिक स्थिर थ्रूपुट, और काफी अधिक प्रभावी जीपीयू उपयोग।
स्केलफ्लक्स में समाधान वास्तुकला और तकनीकी साझेदारी के वरिष्ठ निदेशक कीथ मैके ने टिप्पणी कीःहम जीटीसी में जो दिखा रहे हैं वह यह है कि कैसे स्मार्ट डेटा प्लेसमेंट और लगातार ध्यान की स्थिति प्रबंधन से निष्कर्ष प्रणालियों को संदर्भ खिड़कियों के बढ़ने के साथ प्रतिक्रियाशील रहने में मदद मिल सकती हैयह एक ऐसा सहयोग है जिसे हम वास्तविक ऑपरेटरों के साथ मिलकर बनाना चाहते हैं।
लाइटबिट्स और स्केलफ्लक्स दोनों का उद्देश्य क्लाउड और बुनियादी ढांचे के ऑपरेटरों को अपने सॉफ्टवेयर और एसएसडी को अपनाने के लिए प्रोत्साहित करना है, जिससे महंगा जीपीयू निष्क्रिय समय समाप्त हो जाता है।
आइए पहले स्केलफ्लक्स के योगदान की जांच करें, फिर अधिक परिष्कृत लाइटबिट्स सॉफ्टवेयर परत पर जाएं।
स्केलफ्लक्स हार्डवेयर आधारित लेखन कमी प्रौद्योगिकी (डब्ल्यूआरटी) से लैस एनवीएमई एसएसडी और कम्प्यूटेशनल स्टोरेज ड्राइव (सीएसडी) प्रदान करता है।हार्डवेयर-त्वरित संपीड़न और SoC-संचालित मेटाडेटा प्रबंधन द्वारा संचालित, ये ड्राइव भौतिक भंडारण की तुलना में चार गुना अधिक तार्किक क्षमता प्रदान करते हैं, जबकि होस्ट सिस्टम के लिए पूरी तरह से पारदर्शी रहते हैं।कंपनी ओपन फ्लैश प्लेटफॉर्म (ओएफपी) कंसोर्टियम का सदस्य है।, जो घने, कम विलंबता के साथ एआई डेटा बुनियादी ढांचे को फिर से परिभाषित करने के लिए काम कर रहा है,ऊर्जा-कुशल प्रणालियाँ ️ पारंपरिक फ़ाइल आधारित एआई भंडारण का 10 गुना घनत्व और केवल एक दसवां बिजली की खपत प्रदान करती हैं.
इन स्टोरेज ड्राइवों पर निर्माण करते हुए, लाइटबिट्स केवी कैश डेटा के बुद्धिमान पूर्व-पुनर्प्राप्त करता हैपहलेजीपीयू को इसकी आवश्यकता होती है, जो कि अपर्याप्त केवी क्षमता या महंगी टोकन वेक्टर पुनः गणना के कारण होने वाले स्टॉल को रोकता है।इसका लाइटइन्फेर्रा सॉफ्टवेयर वास्तविक मांग से पहले आरडीएमए गति पर जीपीयू मेमोरी में आवश्यक डेटा खींचने के लिए केवी कैश-अनुकूलित कैशिंग एल्गोरिदम का उपयोग करता है.
फिर से, कैसे?
सॉफ्टवेयर GPU सर्वर में एम्बेडेड x86 मेजबान पर चलता है और KV कैश डेटा ब्लॉक के एक्सेस पैटर्न को ट्रैक करता है। इस टेलीमेट्री का उपयोग करके,यह एक Sub-Linear Sparse Attention Prefetch (SLSAP) इंजन संचालित करता है ताकि अगले KV ब्लॉक की पहचान की जा सके।.
यह इंजन स्थान-संवेदनशील हैशिंग (LSH) को सांख्यिकीय पुनः उपयोग मॉडलिंग के साथ जोड़ता है ️ ध्यान गणना में ऐतिहासिक पहुँच स्थान का विश्लेषण करना ️ KV ब्लॉक को स्कोर और प्राथमिकता देना,फिर GPUs द्वारा अनुरोध किए जाने की उच्चतम संभावना वाले चयन करता है.
यह चयन प्रक्रिया GPU डेटा एक्सेस में अंतर्निहित विरलता का लाभ उठाती हैः अधिकांश टोकन केवल पिछले टोकन के एक छोटे से उपसमूह से सार्थक रूप से संबंधित हैं। इन उच्च संभावना वाले ब्लॉक को अलग करके,समाधान तेजी से टोकन वेक्टरों की मात्रा को कम करता है जो GPUs को वापस स्ट्रीम किया जाना चाहिए.
एक दूसरा एल्गोरिथ्म पुनः उपयोग पैटर्न पर केंद्रित हैः हाल के टोकन, अर्थ समान टोकन,और संरचनात्मक पैटर्न आरएजी या मल्टी-टर्न चैट परिदृश्यों में आम हैं अक्सर पुनः उपयोग किया जाता है और तदनुसार प्राथमिकता दी जाती है.
लाइटइंफेरा इन टोकन ब्लॉक को पहले x86 सर्वर के DRAM से, या यदि आवश्यक हो तो बाहरी ScaleFlux SSD से पुनर्प्राप्त करता है, फिर उन्हें RDMA लिंक के माध्यम से GPU के HBM में प्रीलोड करता है।
लाइटबिट्स ने इस दृष्टिकोण को बड़े भाषा मॉडल वर्कलोड का उपयोग करके स्क्रैच से कैश सामग्री को फिर से कंप्यूटिंग करने के खिलाफ बेंचमार्क किया है, जो टाइम-टू-फर्स्ट-टोकन (टीटीएफटी) में सुधार को मापता है।रिपोर्ट किए गए 100 गुना से 280 गुना त्वरण के आंकड़े सीधे इन परीक्षण परिणामों से प्राप्त होते हैं.

बेशक हम Lightbits-स्केलफ्लक्स केवी कैश त्वरण की तुलना में बेंचमार्क परिणाम देखना पसंद करेंगे
डीडीएन, हैमरस्पेस, वास्ट डेटा, वेका और अन्य के केवी कैश त्वरक के साथ योजना, लेकिन वे
उपलब्ध नहीं हैं।
वहाँ चार्ट कैसे LightInferra-स्केलफ्लक्स प्रगतिशील कैश पुनरुद्धार TTFT पर सुधार दिखा रहे हैं
जैसे-जैसे मॉडल का आकार बढ़ता है।

सभी संबंधित बेंचमार्क डेटा लॉग-स्केल चार्ट में प्रस्तुत किए गए हैं, जो मुख्य रूप से कंप्यूटर विज्ञान पेशेवरों के लिए अनुकूलित हैं, लेकिन सरल भाषा वास्तविक दुनिया के प्रभाव को समझने में बहुत आसान बनाती हैःपरिणाम टिकाऊ टाइम-टू-फर्स्ट-टोकन (टीटीएफटी) प्रदर्शन है क्योंकि संदर्भ 100k टोकन से 1 मिलियन और उससे अधिक तक बढ़ता है.
जैसा कि FarmGPU के Jonmichael हैंड्स कहते हैं, जब 400k टोकन की बातचीत फिर से शुरू होती है और सिस्टम को पूरे KV कैश को खरोंच से पुनर्जीवित करना पड़ता है,इसका मतलब है कि जीपीयू रनटाइम के दो पूर्ण मिनट शून्य टोकन के साथ उत्पादित. लाइटइंफेर्रा आर्थिक मॉडल को पूरी तरह से बदल देता है_ वही कार्यभार आधा सेकंड से भी कम समय में अपना पहला टोकन उत्पन्न करता है, एक गैर-जीवनीय उत्पाद स्तर को लाभदायक में बदल देता है.
लाइटबिट्स और स्केलफ्लक्स ने इस संयुक्त समाधान को विशेष रूप से अगली पीढ़ी के नियोक्लाउड जीपीयू फार्मों के लिए डिज़ाइन किया है, जहां बड़े जीपीयू पॉड सैकड़ों या हजारों समवर्ती एआई मॉडल वर्कलोड चलाते हैं।लगभग इनमें से प्रत्येक कार्यभार GPU की उच्च बैंडविड्थ मेमोरी (HBM) में KV कैश क्षमता की सीमा तक पहुंच जाएगा.
पारंपरिक सेटअप के तहत, टीमों को दो महंगे विकल्पों का सामना करना पड़ता हैः सामान्य बाहरी भंडारण से धीरे-धीरे टोकन वेक्टर प्राप्त करना,या उन वेक्टरों को खरोंच से फिर से गणना करने की अधिक समय लेने वाली प्रक्रिया, जिनमें से दोनों जीपीयू को घंटों तक बेकार छोड़ देते हैं।लाइटइन्फेर्रा और स्केलफ्लक्स संयोजन इस विकलांग उद्योग दर्द बिंदु को पूरी तरह से समाप्त करता है।
फार्मजीपीयू के सीईओ जोनमाइकल हैंड्स ने कहाः ′′लाइटबिट्स से फास्ट नेटवर्क स्टोरेज लंबी-संदर्भ अनुमान के लिए नए उपयोग के मामलों का खजाना खोलता है।हमारी प्रबंधित सेवा को लाइटबिट्स के साथ जोड़कर ScaleFlux NVMe ड्राइव पर चल रहे उच्च प्रदर्शन भंडारण, हम पहले टोकन के समय को कम कर सकते हैं और GPU उपयोग को बढ़ा सकते हैं, जिससे अनुमान कार्यभार के लिए स्वामित्व की कुल लागत (TCO) में काफी कमी आती है।
व्यापार फोकसः
आईसीटी उत्पाद वितरण/सिस्टम एकीकरण और सेवाएं/पूर्वाधार समाधान
20+ वर्षों के आईटी वितरण अनुभव के साथ, हम विश्वसनीय उत्पादों और पेशेवर सेवाओं को वितरित करने के लिए अग्रणी वैश्विक ब्रांडों के साथ साझेदारी करते हैं।
एक बुद्धिमान दुनिया के निर्माण के लिए प्रौद्योगिकी का उपयोग करना आपका विश्वसनीय आईसीटी उत्पाद सेवा प्रदाता!