Google क्लाउड नेक्स्ट में, Google ने अपने आठवीं पीढ़ी के AI त्वरक का अनावरण किया: प्रशिक्षण के लिए TPU v8t "सनफिश" और अनुमान के लिए TPU v8i "ज़ेब्राफिश", नए कन्या डेटा सेंटर फैब्रिक के साथ। एजेंटिक एआई युग के लिए तैयार, ये चिप्स बड़े मिश्रण-विशेषज्ञों (एमओई) मॉडल प्रशिक्षण और लागत-कुशल मूल्य निर्धारण के साथ कम-विलंबता टोकन सेवा के लिए अनुकूलित हैं। एक ही होस्ट प्लेटफ़ॉर्म और इंटरकनेक्ट फैब्रिक साझा करते समय, v8t और v8i मेमोरी, SRAM, टोपोलॉजी और हार्डवेयर विशेषज्ञता में भिन्न होते हैं।
एक वी8टी सुपरपॉड 2 पीबी एचबीएम के साथ 9,600 चिप्स का समर्थन करता है और एफपी4 कंप्यूट के 121 ईएफएलओपीएस प्रदान करता है, जो पिछली आयरनवुड पीढ़ी के प्रदर्शन को लगभग तीन गुना कर देता है। वी8आई 288 जीबी एचबीएम और 384 एमबी ऑन-चिप एसआरएएम के साथ 1,152 चिप्स तक स्केल करता है, जो आयरनवुड की तुलना में 80% बेहतर अनुमान लागत-दक्षता प्रदान करता है। विर्गो फैब्रिक 134,000 वी8टी चिप्स से अधिक इंटरकनेक्ट करता है, जो 4× उच्च प्रति-त्वरक थ्रूपुट और 40% कम विलंबता के साथ 47 पीबी/एस गैर-अवरुद्ध बैंडविड्थ प्रदान करता है।
मौलिक टीपीयू आर्किटेक्चर बनाम जीपीयू
टीपीयू कस्टम एएसआईसी हैं जिनकी विशेषता बड़ी मैट्रिक्स मल्टीपल यूनिट्स (एमएक्सयू), सॉफ्टवेयर-प्रबंधित एसआरएएम और समय से पहले संकलन है। जीपीयू के गतिशील छोटे-कोर शेड्यूलिंग के विपरीत, टीपीयू में सिस्टोलिक एरे के साथ नियतात्मक डेटाफ्लो की सुविधा होती है, जो घने मैट्रिक्स वर्कलोड पर उच्च फ्लॉप्स उपयोग के लिए कैश जिटर और वार्प शेड्यूलिंग ओवरहेड को खत्म करता है। हालाँकि, TPU गतिशील आकृतियों, अनियमित विरलता और जटिल ग्राफ़ नेटवर्क के साथ संघर्ष करते हैं, जबकि JAX और XLA के वर्चस्व वाले संकीर्ण सॉफ़्टवेयर पारिस्थितिकी तंत्र समर्थन भी प्रदान करते हैं।
स्पार्सिटी समर्थन में संरचनात्मक अंतर स्पष्ट रूप से टीपीयू और जीपीयू को अलग करता है। NVIDIA टेन्सर कोर मूल रूप से निर्देश-स्तरीय संपीड़न के माध्यम से 2:4 संरचित विरलता का समर्थन करता है। इसके विपरीत, टीपीयू सिस्टोलिक ऐरे कठोर लॉकस्टेप में काम करते हैं, जिससे पाइपलाइन स्टॉल या अतिरिक्त डीकंप्रेसन हार्डवेयर के बिना जीरो-स्किपिंग अक्षम हो जाती है। एडब्ल्यूएस ट्रेनियम2 एरे थ्रूपुट को बनाए रखने के लिए समर्पित विरल डीकंप्रेसर के साथ एक मध्य मार्ग अपनाता है।
टीपीयू एम्बेडिंग टेबल और एमओई रूटिंग के लिए अनियमित इकट्ठा-स्कैटर कार्यों को संभालने के लिए स्पार्सकोर्स को एकीकृत करता है। ये विशेष कोर सॉर्टिंग, क्रमपरिवर्तन और डेटा पुनर्व्यवस्था में उत्कृष्टता प्राप्त करते हैं, अनुशंसा कार्यभार और विशेषज्ञ टोकन प्रेषण को कवर करते हैं जो मानक एमएक्सयू कुशलतापूर्वक संसाधित नहीं कर सकते हैं।
TPU v8t "सनफिश": प्रशिक्षण त्वरक
V8t प्रशिक्षण चिप 216 GB HBM3e मेमोरी और 128 MB SRAM से सुसज्जित है। नेटिव एफपी4 परिशुद्धता प्रति-चक्र थ्रूपुट को दोगुना कर देती है, जिससे सिंगल-चिप गणना 12.6 पीएफएलओपीएस तक पहुंच जाती है। यह 3डी टोरस इंटरकनेक्ट और उन्नत 19.2 टीबी/एस आईसीआई बैंडविड्थ को बरकरार रखता है, जो बड़े पैमाने के प्रशिक्षण में रिंग-आधारित सामूहिक संचार के लिए आदर्श है।
इनहेरिटेड स्पार्सकोर्स MoE अनियमित ऑल-टू-ऑल डेटा ट्रांसमिशन को अनुकूलित करते हैं। दो महत्वपूर्ण उन्नयन बड़े पैमाने पर बाधाओं को तोड़ते हैं: टीपीयूडायरेक्ट आरडीएमए और टीपीयूडायरेक्ट स्टोरेज सीधे टीपीयू मेमोरी एक्सेस को सक्षम करने के लिए होस्ट सीपीयू को बायपास करते हैं, जिससे 10× तेज आई/ओ थ्रूपुट मिलता है। इसके अतिरिक्त, v8t Google के आर्म-आधारित एक्सियन सीपीयू को होस्ट प्रोसेसर के रूप में अपनाता है, होस्ट जिटर को अलग करता है और सिंक्रनाइज़ मल्टी-चिप प्रशिक्षण के लिए प्रीप्रोसेसिंग स्थिरता को बढ़ाता है।
TPU v8i "ज़ेब्राफिश": अनुमान त्वरक
मेमोरी-बैंडविड्थ-बाध्य अनुमान वर्कलोड के लिए निर्मित, v8i कम-विलंबता टोकन पीढ़ी को प्राथमिकता देता है। इसमें केवी कैश को चिप पर कैश करने और बार-बार होने वाली एचबीएम रीडिंग को कम करने के लिए 384 एमबी एसआरएएम - आयरनवुड की तुलना में तीन गुना - की सुविधा है। दो TensorCores और 288 GB HBM3e के साथ, यह 10.1 PFLOPS FP4 गणना प्राप्त करता है, उच्च निरंतर उपयोग के लिए शॉर्ट-बैच अनुमान कार्यों को ओवरलैप करता है।
SparseCores की जगह, समर्पित कलेक्टिव एक्सेलेरेशन इंजन (CAE) ऑन-चिप सिंक्रोनाइज़ेशन विलंबता को 5× तक कम कर देता है, जिससे लगातार छोटे-बैच सामूहिक संचालन को अनुकूलित किया जाता है। V8i ड्रैगनफ़्लाई-आधारित बोर्डफ़्लाई टोपोलॉजी के लिए 3D टोरस को छोड़ देता है, अधिकतम चिप-टू-चिप हॉप्स को 16 से घटाकर 7 कर देता है और MoE ऑल-टू-ऑल विलंबता को 50% तक कम कर देता है।
कन्या और बृहस्पति फैब्रिक पदानुक्रम
विर्गो इंट्रा-डेटा-सेंटर स्केल-आउट फैब्रिक के रूप में कार्य करता है, जो पूर्व-पश्चिम एआई ट्रैफ़िक के लिए ओवरसब्सक्रिप्शन को खत्म करने के लिए दो-परत गैर-अवरुद्ध आर्किटेक्चर को अपनाता है। एमईएमएस ऑप्टिकल स्विच द्वारा संचालित, यह मिलीसेकंड-स्तरीय फॉल्ट रीरूटिंग को सक्षम बनाता है और वी8टी सुपरपॉड के लिए 97% गुडपुट बनाए रखता है। ज्यूपिटर के साथ संयुक्त - Google की लंबी दूरी की क्रॉस-डेटा-सेंटर फैब्रिक - स्तरित इंटरकनेक्ट प्रणाली 1.7 ZFLOPS कुल FP4 गणना के साथ एकल लॉजिकल क्लस्टर में दस लाख से अधिक TPU चिप्स का समर्थन करती है।
प्रदर्शन, टीसीओ और बाजार स्थिति
उच्च गुडपुट और स्थिर मॉडल फ्लॉप यूटिलाइजेशन (एमएफयू) टीपीयू को आकर्षक लागत लाभ प्रदान करते हैं। 40% एमएफयू पर, टीपीयू प्रशिक्षण लागत एनवीआईडीआईए जीबी300 से 62% कम है। हार्डवेयर तुलना में, v8t सघन FP4 प्रदर्शन GB200 और GB300 के बीच बैठता है, जबकि Google 9,600-चिप सिंगल पॉड के साथ बड़े पैमाने पर क्लस्टरिंग में हावी है, जो NVIDIA के 72-GPU NVLink डोमेन से कहीं अधिक है।
आगे देखते हुए, NVIDIA के वेरा रुबिन, रुबिन अल्ट्रा और किबर 2026 से 2027 तक टीपीयू के प्रदर्शन अंतर को कम कर देंगे। टीपीयू की कमजोरियों में छोटी प्रति-चिप एचबीएम, अनुपस्थित हार्डवेयर स्पार्सिटी और सीमित पारिस्थितिकी तंत्र अनुकूलता शामिल हैं। बहरहाल, Google MoE कार्यभार के लिए बड़े पैमाने पर क्लस्टरिंग, नियतात्मक विलंबता और लागत दक्षता में ताकत बनाए रखता है।
Google TPU और NVIDIA GPU इन्फ्रास्ट्रक्चर दोनों का विस्तार कर रहा है। मेटा ने 2027 में शुरू होने वाले बहु-अरब डॉलर के टीपीयू गोद लेने के सौदे की योजना बनाई है। एजेंटिक युग के लिए अनुकूलित दोहरी-चिप पीढ़ी के रूप में, टीपीयू वी8 बड़े पैमाने पर एआई तैनाती के लिए एनवीआईडीआईए ग्रेस-ब्लैकवेल के खिलाफ Google की प्रतिस्पर्धात्मकता को सुरक्षित करता है।
बीजिंग कियानक्सिंग जिएतोंग टेक्नोलॉजी कंपनी लिमिटेड
सैंडी यांग/वैश्विक रणनीति निदेशक
व्हाट्सएप/वीचैट: +86 13426366826
ईमेल: angyd@qianxingdata.com
वेबसाइट: www.qianxingdata.com/www.storagesserver.com
व्यवसाय फोकस:
आईसीटी उत्पाद वितरण/प्रणाली एकीकरण एवं सेवाएँ/बुनियादी ढाँचा समाधान
20+ वर्षों के आईटी वितरण अनुभव के साथ, हम विश्वसनीय उत्पाद और पेशेवर सेवाएं प्रदान करने के लिए अग्रणी वैश्विक ब्रांडों के साथ साझेदारी करते हैं।
"एक बुद्धिमान दुनिया बनाने के लिए प्रौद्योगिकी का उपयोग करना" आपका विश्वसनीय आईसीटी उत्पाद सेवा प्रदाता!
सैंडी यांग/वैश्विक रणनीति निदेशक
व्हाट्सएप/वीचैट: +86 13426366826
ईमेल: angyd@qianxingdata.com
वेबसाइट: www.qianxingdata.com/www.storagesserver.com
व्यवसाय फोकस:
आईसीटी उत्पाद वितरण/प्रणाली एकीकरण एवं सेवाएँ/बुनियादी ढाँचा समाधान
20+ वर्षों के आईटी वितरण अनुभव के साथ, हम विश्वसनीय उत्पाद और पेशेवर सेवाएं प्रदान करने के लिए अग्रणी वैश्विक ब्रांडों के साथ साझेदारी करते हैं।
"एक बुद्धिमान दुनिया बनाने के लिए प्रौद्योगिकी का उपयोग करना" आपका विश्वसनीय आईसीटी उत्पाद सेवा प्रदाता!



