AMD ने अपने MLPerf Inference v6.0 बेंचमार्क परिणाम घोषित किए हैं, जिसमें Instinct MI355X GPU को एक अत्यधिक स्केलेबल इन्फेरेंस प्लेटफ़ॉर्म के रूप में स्थापित किया गया है जो सिंगल-नोड, मल्टीनोड और हेटेरोजेनियस डिप्लॉयमेंट का समर्थन करने में सक्षम है। वृद्धिशील प्रदर्शन लाभों से परे, सबमिशन नए वर्कलोड पेश करता है, एक मिलियन टोकन प्रति सेकंड से अधिक क्लस्टर-स्केल थ्रूपुट प्रदर्शित करता है, और एक विस्तारित भागीदार पारिस्थितिकी तंत्र में लगातार प्रदर्शन पुनरुत्पादकता को मान्य करता है।
CDNA 4 आर्किटेक्चर उच्च-क्षमता इन्फेरेंस को लक्षित करता है
Instinct MI355X AMD के CDNA 4 आर्किटेक्चर पर बनाया गया है, जो TSMC डुअल-प्रोसेस चिपलेट डिज़ाइन का लाभ उठाता है: कंप्यूट डाइस (XCDs) 3nm नोड का उपयोग करते हैं, जबकि I/O डाइस 6nm FinFET तकनीक का उपयोग करते हैं। मल्टी-चिपलेट पैकेज में 185 बिलियन ट्रांजिस्टर एकीकृत हैं और यह FP4 और FP6 डेटा प्रारूपों का समर्थन करता है - कुशल बड़े-मॉडल इन्फेरेंस के लिए महत्वपूर्ण। प्रत्येक GPU 288GB तक HBM3E मेमोरी (8 TB/sec मेमोरी बैंडविड्थ प्रदान करता है) से लैस है, जो एक ही डिवाइस पर 520 बिलियन पैरामीटर तक के मॉडल के लिए समर्थन सक्षम करता है। AMD इस बात पर जोर देता है कि कंप्यूट घनत्व और मेमोरी क्षमता का यह संयोजन अत्यधिक मॉडल विभाजन की आवश्यकता को समाप्त करता है, जो बड़े पैमाने पर इन्फेरेंस वर्कलोड के लिए एक प्रमुख लाभ है।
UBB8 कॉन्फ़िगरेशन में उपलब्ध, प्लेटफ़ॉर्म विभिन्न डेटा सेंटर डिप्लॉयमेंट आवश्यकताओं के अनुरूप एयर-कूल्ड और डायरेक्ट लिक्विड-कूल्ड दोनों विकल्प प्रदान करता है। विशेष रूप से, MI355X में लिक्विड कूलिंग के साथ 1400W TBP (थर्मल डिज़ाइन पावर) है, जो इसके एयर-कूल्ड समकक्ष, MI350X की तुलना में उच्च प्रदर्शन प्रदान करता है।
मल्टीनोड थ्रूपुट 1 मिलियन टोकन प्रति सेकंड से अधिक
MLPerf v6.0 राउंड से एक उत्कृष्ट उपलब्धि AMD का क्लस्टर-स्केल थ्रूपुट है जो एक मिलियन टोकन प्रति सेकंड से अधिक है। Instinct MI355X GPUs का उपयोग करके, AMD ने सर्वर और ऑफ़लाइन दोनों परिदृश्यों में Llama 2 70B के साथ, साथ ही ऑफ़लाइन मोड में GPT-OSS-120B के साथ इस मील के पत्थर को हासिल किया।
AMD MLPerf 1M टोकन प्रति सेकंड ग्राफिक
ये परिणाम व्यक्तिगत एक्सेलेरेटर प्रति के बजाय क्लस्टर स्तर पर इन्फेरेंस प्रदर्शन का मूल्यांकन करने की ओर बढ़ते उद्योग बदलाव को दर्शाते हैं। बड़े पैमाने पर AI डिप्लॉयमेंट में उत्पादन तत्परता निर्धारित करने के लिए कुल थ्रूपुट और टाइम-टू-सर्व प्राथमिक मेट्रिक्स बन गए हैं।
AMD ने असाधारण स्केलिंग दक्षता भी प्रदर्शित की। Llama 2 70B के लिए, एक 11-नोड, 87-GPU कॉन्फ़िगरेशन ने ऑफ़लाइन, सर्वर और इंटरैक्टिव परिदृश्यों में 1 मिलियन टोकन प्रति सेकंड से अधिक हासिल किया, जिसमें 93% से 98% तक स्केल-आउट दक्षता थी। GPT-OSS-120B के लिए, एक 12-नोड, 94-GPU क्लस्टर ने 90% से अधिक स्केलिंग दक्षता के साथ समान थ्रूपुट प्रदान किया - यह साबित करते हुए कि प्रदर्शन प्रभावी ढंग से अनुवाद करता है क्योंकि डिप्लॉयमेंट एक ही सिस्टम से परे विस्तारित होते हैं।
पीढ़ीगत लाभ और प्रतिस्पर्धी सिंगल-नोड प्रदर्शन
AMD ने महत्वपूर्ण पीढ़ीगत सुधारों की सूचना दी, जिसमें Instinct MI355X ने पूर्व-पीढ़ी के Instinct MI325X की तुलना में Llama 2 70B सर्वर पर 3.1x बेहतर प्रदर्शन दिया, जो 100,282 टोकन प्रति सेकंड तक पहुंच गया। यह सुधार CDNA 4 आर्किटेक्चर एन्हांसमेंट और ROCm सॉफ़्टवेयर ऑप्टिमाइज़ेशन दोनों से आता है। ऑफ़लाइन स्कोर में 4.4x और सर्वर स्कोर में 4.8x की वृद्धि हुई, जो मुख्य रूप से FP4 क्वांटिज़ेशन से प्रेरित है - MI355X की एक प्रमुख विशेषता जो AI वर्कलोड के लिए उच्च थ्रूपुट को अनलॉक करती है।
AMD इन्फेरेंस परिणाम बनाम पिछली पीढ़ी का ग्राफिक
NVIDIA प्लेटफ़ॉर्म के मुकाबले सिंगल-नोड तुलना में, MI355X ने मजबूत प्रतिस्पर्धा दिखाई। Llama 2 70B पर, इसने ऑफ़लाइन थ्रूपुट में NVIDIA B200 से मेल खाया, सर्वर प्रदर्शन में लगभग समानता हासिल की, और इंटरैक्टिव मोड में इसे बेहतर प्रदर्शन किया। NVIDIA B300 के मुकाबले, MI355X ने ऑफ़लाइन प्रदर्शन का 92%, सर्वर प्रदर्शन का 93% प्रदान किया, और इंटरैक्टिव मोड में 4% से इसे बेहतर प्रदर्शन किया। विशेष रूप से, MI355X बेहतर लागत-दक्षता भी प्रदान करता है, जो NVIDIA B200 की तुलना में प्रति डॉलर 40% अधिक टोकन प्रदान करता है।
पहली बार मॉडल सक्षम होने से कवरेज का विस्तार होता है
MLPerf Inference v6.0 ने कई नए वर्कलोड पेश किए, और AMD ने तीव्र मॉडल सक्षम करने के लिए इस राउंड का उपयोग किया। GPT-OSS-120B, एक मिश्रण-विशेषज्ञ मॉडल, ने MI355X के साथ MLPerf में अपनी शुरुआत की, जिसने ऑफ़लाइन और सर्वर दोनों परिदृश्यों में NVIDIA सिस्टम के मुकाबले प्रतिस्पर्धी परिणाम हासिल किए।
AMD ने Wan-2.2 टेक्स्ट-टू-वीडियो जनरेशन के लिए भी परिणाम प्रस्तुत किए, जो मल्टीमॉडल और जनरेटिव वीडियो इन्फेरेंस में अपनी प्रविष्टि को चिह्नित करता है। जबकि आधिकारिक सबमिशन सिंगल स्ट्रीम लेटेंसी पर केंद्रित था, परिणाम मौजूदा प्लेटफार्मों के बराबर थे। सबमिशन के बाद ट्यूनिंग ने प्रदर्शन में और सुधार किया, जो सॉफ़्टवेयर स्टैक के परिपक्व होने के साथ अनुकूलन के लिए जगह को उजागर करता है।
ये जोड़ें विविध उपयोग के मामलों में उभरते AI वर्कलोड का समर्थन करने के लिए पारंपरिक LLM बेंचमार्क से परे AMD की प्रतिबद्धता को रेखांकित करते हैं।
ROCm सॉफ़्टवेयर स्केलिंग और हेटेरोजेनियस इन्फेरेंस को सक्षम बनाता है
AMD MI355X के प्रदर्शन और स्केलेबिलिटी का बहुत श्रेय इसके ROCm सॉफ़्टवेयर स्टैक को देता है। प्रमुख एन्हांसमेंट में अनुकूलित FP4 निष्पादन, वितरित इन्फेरेंस के लिए बेहतर GPU-से-GPU संचार, और हेटेरोजेनियस वातावरण में डायनामिक वर्कलोड वितरण के लिए समर्थन शामिल है - मिश्रित-GPU डिप्लॉयमेंट के लिए महत्वपूर्ण।
AMD MLPerf इन्फेरेंस परिणाम Instinct MI355X ग्राफिक
एक मील का पत्थर हेटेरोजेनियस सबमिशन - डेल और मैंगोबूस्ट द्वारा विकसित - ने तीन AMD Instinct GPU मॉडल का उपयोग किया: MI300X, MI325X, और MI355X। इस कॉन्फ़िगरेशन ने Llama 2 70B सर्वर पर 141,521 टोकन प्रति सेकंड और Llama 2 70B ऑफ़लाइन पर 151,843 टोकन प्रति सेकंड हासिल किया। विशेष रूप से, MI355X प्लेटफ़ॉर्म डेल की यू.एस. लैब में स्थित था, जबकि MI300X और MI325X सिस्टम कोरिया में थे - भौगोलिक स्थानों पर वितरित सिस्टम को समन्वयित करने की क्षमता का प्रदर्शन करते हुए।
पारिस्थितिकी तंत्र वृद्धि और पुनरुत्पादकता
इस MLPerf राउंड में AMD का भागीदार पारिस्थितिकी तंत्र काफी विस्तारित हुआ, जिसमें नौ कंपनियों ने कई Instinct GPU पीढ़ियों में परिणाम प्रस्तुत किए। भाग लेने वाले विक्रेताओं में सिस्को, डेल, गीगा कंप्यूटिंग, एचपीई, मैंगोबूस्ट, मिटेक, ओरेकल, सुपरमाइक्रो और रेड हैट शामिल हैं - जो AMD के इन्फेरेंस समाधानों को व्यापक उद्योग अपनाने को दर्शाता है।
भागीदार सबमिशन AMD के आंतरिक परिणामों के साथ निकटता से संरेखित थे, आमतौर पर 4% के भीतर और कुछ मामलों में 1% के भीतर। यह स्थिरता पुष्टि करती है कि MI355X प्रदर्शन OEM और क्लाउड प्लेटफार्मों पर पुनरुत्पादक है, जो डिप्लॉयमेंट जोखिम को कम करता है और वास्तविक दुनिया के प्रदर्शन परिणामों में विश्वास बढ़ाता है।
बीजिंग कियानक्सिंग जिएटोंग टेक्नोलॉजी कं, लिमिटेड
सैंडी यांग/ग्लोबल स्ट्रेटेजी डायरेक्टर
WhatsApp / WeChat: +86 13426366826
ईमेल: yangyd@qianxingdata.com
वेबसाइट: www.qianxingdata.com/www.storagesserver.com
व्यवसाय फोकस:
आईसीटी उत्पाद वितरण/सिस्टम एकीकरण और सेवाएँ/बुनियादी ढांचा समाधान
20+ वर्षों के आईटी वितरण अनुभव के साथ, हम विश्वसनीय उत्पाद और पेशेवर सेवाएं प्रदान करने के लिए अग्रणी वैश्विक ब्रांडों के साथ साझेदारी करते हैं।
“एक बुद्धिमान दुनिया बनाने के लिए प्रौद्योगिकी का उपयोग करना”आपका विश्वसनीय आईसीटी उत्पाद सेवा प्रदाता!
सैंडी यांग/ग्लोबल स्ट्रेटेजी डायरेक्टर
WhatsApp / WeChat: +86 13426366826
ईमेल: yangyd@qianxingdata.com
वेबसाइट: www.qianxingdata.com/www.storagesserver.com
व्यवसाय फोकस:
आईसीटी उत्पाद वितरण/सिस्टम एकीकरण और सेवाएँ/बुनियादी ढांचा समाधान
20+ वर्षों के आईटी वितरण अनुभव के साथ, हम विश्वसनीय उत्पाद और पेशेवर सेवाएं प्रदान करने के लिए अग्रणी वैश्विक ब्रांडों के साथ साझेदारी करते हैं।
“एक बुद्धिमान दुनिया बनाने के लिए प्रौद्योगिकी का उपयोग करना”आपका विश्वसनीय आईसीटी उत्पाद सेवा प्रदाता!



