NVIDIA DGX स्पार्क की दो विशिष्ट विशेषताएं सामने आती हैं: $4,000 डेस्कटॉप यूनिट में 128GB एकीकृत मेमोरी, और एक अंतर्निहित 200Gb डेटासेंटर-ग्रेड नेटवर्क। हाई-स्पीड फैब्रिक इसे नियमित वर्कस्टेशन से अलग करता है, जो रैक-माउंटेड सर्वर के लिए विशेष रूप से मल्टी-नोड क्लस्टरिंग को सक्षम बनाता है। इस समीक्षा बेंचमार्क ने विभिन्न मॉडलों और वर्कलोड में दो-नोड 200 जीबीई क्लस्टर में डेल, गीगाबाइट और एचपी स्पार्क वेरिएंट में अनुमान वितरित किए। यह पाइपलाइन समानता (पीपी) का भी विश्लेषण करता है, जो एनवीआईडीआईए के डिफ़ॉल्ट टेंसर समानता (टीपी) से बेहतर प्रदर्शन करने वाली एक वैकल्पिक विभाजन विधि है।
200 जीबी नेटवर्क फैब्रिक
प्रत्येक स्पार्क एक एकीकृत कनेक्टएक्स-7 स्मार्टएनआईसी के साथ जोड़े गए दो क्यूएसएफपी56 पिंजरों से सुसज्जित है। PCIe Gen5 x4 बैंडविड्थ द्वारा सीमित, प्रयोग करने योग्य नेटवर्क स्पीड 200Gb है, जिसमें पूर्ण बैंडविड्थ के लिए एक पोर्ट पर्याप्त है; दूसरा पोर्ट टोपोलॉजी लचीलापन प्रदान करता है। तीन सामान्य कॉन्फ़िगरेशन उपलब्ध हैं: प्रत्यक्ष स्पार्क-टू-स्पार्क 200 जीबी लिंक, दोहरी 100 जीबी पोर्ट के माध्यम से स्विच-फ्री रिंग टोपोलॉजी, और एनवीएमई-ओएफ हाई-स्पीड स्टोरेज एक्सेस के साथ हाइब्रिड क्लस्टरिंग। NVIDIA एकल-यूनिट डेस्कटॉप, मान्य दो-नोड क्लस्टर और नए जारी किए गए चार-नोड सेटअप बेचता है। उत्पादन-शैली के अनुमान और इस परीक्षण के फोकस के लिए डुअल-स्पार्क कॉन्फ़िगरेशन सबसे व्यावहारिक है।
स्पार्क क्लस्टरिंग के लिए तर्क
प्राथमिक लाभ मॉडल क्षमता का विस्तार है: दो लिंक किए गए स्पार्क्स 120B-पैरामीटर मॉडल चला सकते हैं जो एकल-यूनिट मेमोरी सीमा से अधिक है। इससे भी महत्वपूर्ण बात यह है कि यह मंच एक किफायती शैक्षिक उपकरण के रूप में कार्य करता है। NVIDIA ने शुरुआती लोगों के लिए AI वर्कफ़्लो सीखने के लिए स्पार्क डिज़ाइन किया है, जिसमें मॉडल परिनियोजन, फ़ाइन-ट्यूनिंग और PyTorch/JAX विकास को कवर करने वाले आधिकारिक गाइड शामिल हैं। डुअल-नोड क्लस्टर महंगे डेटासेंटर हार्डवेयर के बिना मल्टी-नोड समानता और नेटवर्क बाधा विश्लेषण सिखाते हैं। विशेष रूप से, स्पार्क उत्पादन अनुमान के लिए अनुकूलित नहीं है। मेमोरी बैंडविड्थ और इंटर-नोड विलंबता द्वारा प्रतिबंधित, इसका 200GbE लिंक आंतरिक PCIe कनेक्शन की तुलना में धीमा है। कम टोकन थ्रूपुट के साथ बड़े समूहों को गंभीर प्रदर्शन में गिरावट का सामना करना पड़ता है, जिससे उन्हें व्यावसायिक सेवा के बजाय शैक्षिक उपयोग तक सीमित कर दिया जाता है।
प्रदर्शन परीक्षण: पीपी बनाम टीपी
समांतरता रणनीति चयन
NVIDIA टीपी को डिफॉल्ट करता है, जो बार-बार ऑल-रिड्यूस डेटा एक्सचेंज के साथ प्रत्येक ट्रांसफार्मर परत को दो जीपीयू में विभाजित करता है। इसके विपरीत, पीपी मॉडल को परत दर परत विभाजित करता है, सक्रियणों को केवल एक बार नोड्स के बीच स्थानांतरित करता है। 200GbE लिंक पर, PP क्रॉस-नोड संचार को न्यूनतम करता है। उच्च बैच आकार वाले बड़े मॉडलों के लिए, पीपी टीपी से काफी बेहतर प्रदर्शन करता है; टीपी केवल एकल-अनुरोध कम-विलंबता चैट परिदृश्यों में उत्कृष्टता प्राप्त करता है।
GPT-OSS-120B पर परीक्षण इस अंतर की पुष्टि करते हैं। बैच आकार 128 पर, पीपी संतुलित कार्यभार में 554.69 टोक/सेकेंड (टीपी से 2.20× तेज), प्रीफिल-हैवी कार्यों में 310.63 टोक/सेकेंड बनाम 164.99 टोक/सेकेंड हिट करता है। टीपी केवल बैच आकार 1 पर आगे बढ़ता है। लामा-3.1-8बी जैसे छोटे मॉडलों के लिए, हल्के परत गणना के कारण टीपी अधिकांश बैच आकारों पर हावी है, पीपी केवल उच्च संगामिति पर टीपी से आगे निकल जाता है।
मल्टी-मॉडल बेंचमार्क परिणाम (पीपी=2)
जीपीटी-ओएसएस श्रृंखला
जीपीटी-ओएसएस-120बी के लिए, एचपी संतुलित (504.88 टोक/सेकेंड) और प्रीफिल-हैवी (441.63 टोक/सेकेंड) वर्कलोड में पीक थ्रूपुट में शीर्ष पर है; गीगाबाइट एलईडी डिकोड-भारी परीक्षण (494.37 टोक/सेकेंड)। GPT-OSS-20B के लिए, Dell ने संतुलित (976.77 tok/s) और प्रीफ़िल-हैवी (852.39 tok/s) परिदृश्यों पर अपना दबदबा बनाया, जबकि GIGABYTE ने डिकोड कार्यों (945.55 tok/s) का नेतृत्व किया।
लामा 3.1 8बी वेरिएंट
बीएफ16 परिशुद्धता में, डेल ने संतुलित (689.53 टोक/सेकेंड) और डिकोड-भारी (581.43 टोक/सेकेंड) कार्यभार का नेतृत्व किया; गीगाबाइट ने प्रीफ़िल-हैवी परीक्षण (539.27 tok/s) जीता। FP4 अनुकूलन ने थ्रूपुट को तेजी से बढ़ाया: गीगाबाइट ने संतुलित (1458.86 tok/s) और प्रीफ़िल-हैवी (954.23 tok/s) कार्यों का नेतृत्व किया। एफपी8 के लिए, डेल ने संतुलित (1105.42 टोक/सेकेंड) और डिकोड-हैवी (862.33 टोक/सेकेंड) परिदृश्यों में संकीर्ण बढ़त बनाए रखी।
मिस्ट्रल और क्वेन मॉडल
मिस्ट्रल स्मॉल 3.1 24बी में न्यूनतम अंतराल देखा गया: गीगाबाइट संतुलित कार्यभार में 255.09 टोकन/सेकंड पर पहुंच गया। Qwen3 कोडर 30B (A3B बेस) के लिए, गीगाबाइट ने प्रीफ़िल-भारी कार्यों (1862.40 tok/s) का नेतृत्व किया; डेल ने डिकोड परिदृश्यों में उत्कृष्ट प्रदर्शन किया। FB8 परिमाणीकरण के तहत, गीगाबाइट प्रीफिल-हेवी थ्रूपुट (3088.62 tok/s) में शीर्ष पर रहा, जबकि Dell ने डिकोड कार्यों (705.77 tok/s) का नेतृत्व किया।
डुअल स्पार्क सिस्टम पीक आउटपुट सारांश
|
नमूना
|
परिदृश्य (बीएस - 64)
|
डेल पीक आउटपुट
|
गीगाबाइट पीक आउटपुट
|
एचपी पीक आउटपुट
|
|---|---|---|---|---|
|
जीपीटी-ओएसएस-120बी
|
बराबर आईएसएल/ओएसएल
|
463.97 टोक/से
|
497.26 टोक/से
|
504.88 टोक/से
|
|
जीपीटी-ओएसएस-120बी
|
भारी प्रीफ़िल
|
419.56 टोक/से
|
417.34 टोक/से
|
441.63 टोक/से
|
|
जीपीटी-ओएसएस-120बी
|
डिकोड भारी
|
451.18 टोक/से
|
494.37 टोक/से
|
474.85 टोक/से
|
|
जीपीटी-ओएसएस-20बी
|
बराबर आईएसएल/ओएसएल
|
976.77 टोक/से
|
952.31 टोक/से
|
915.72 टोक/से
|
|
जीपीटी-ओएसएस-20बी
|
भारी प्रीफ़िल
|
852.39 टोक/से
|
802.37 टोक/से
|
757.05 टोक/सेक
|
|
जीपीटी-ओएसएस-20बी
|
डिकोड भारी
|
938.65 टोक/से
|
945.55 टोक/से
|
865.78 टोक/से
|
|
लामा-3.1-8बी-निर्देश
|
बराबर आईएसएल/ओएसएल
|
689.53 टोक/से
|
687.48 टोक/से
|
618.87 टोक/से
|
|
लामा-3.1-8बी-निर्देश
|
भारी प्रीफ़िल
|
515.45 टोक/से
|
539.27 टोक/से
|
463.39 टोक/से
|
|
लामा-3.1-8बी-निर्देश
|
डिकोड भारी
|
581.43 टोक/से
|
576.91 टोक/से
|
531.07 टोक/से
|
|
लामा-3.1-8बी-एफपी4
|
बराबर आईएसएल/ओएसएल
|
1427.39 टोक/से
|
1458.86 टोक/से
|
1413.51 टोक/से
|
|
लामा-3.1-8बी-एफपी4
|
भारी प्रीफ़िल
|
884.22 टोक/से
|
954.23 टोक/से
|
843.57 टोक/से
|
|
लामा-3.1-8बी-एफपी4
|
डिकोड भारी
|
1008.98 टोक/से
|
1007.23 टोक/से
|
943.73 टोक/सेक
|
|
लामा-3.1-8बी-एफपी8
|
बराबर आईएसएल/ओएसएल
|
1105.42 टोक/से
|
1089.85 टोक/से
|
1076.68 टोक/से
|
|
लामा-3.1-8बी-एफपी8
|
भारी प्रीफ़िल
|
759.50 टोक/से
|
827.40 टोक/से
|
725.51 टोक/से
|
|
लामा-3.1-8बी-एफपी8
|
डिकोड भारी
|
862.33 टोक/से
|
855.81 टोक/से
|
800.78 टोक/से
|
|
मिस्ट्रल-स्मॉल-3.1-24बी
|
बराबर आईएसएल/ओएसएल
|
249.77 टोक/से
|
255.09 टोक/से
|
239.09 टोक/से
|
|
मिस्ट्रल-स्मॉल-3.1-24बी
|
भारी प्रीफ़िल
|
216.01 टोक/से
|
214.38 टोक/से
|
197.92 टोक/से
|
|
मिस्ट्रल-स्मॉल-3.1-24बी
|
डिकोड भारी
|
238.44 टोक/से
|
237.97 टोक/से
|
221.41 टोक/से
|
निष्कर्ष
डेल, गीगाबाइट और एचपी स्पार्क इकाइयां मामूली बैच-विशिष्ट लीड के साथ नगण्य प्रदर्शन अंतराल प्रदान करती हैं। खरीद निर्णयों में मामूली बेंचमार्क अंतरों पर चेसिस डिज़ाइन, थर्मल प्रदर्शन, वारंटी और बिक्री के बाद के समर्थन को प्राथमिकता दी जानी चाहिए। समानांतरवाद रणनीति ओईएम विविधताओं की तुलना में कहीं अधिक प्रभाव डालती है: पीपी बैच किए गए अनुमान के लिए टीपी से बेहतर प्रदर्शन करता है, जबकि टीपी एकल-स्ट्रीम कम-विलंबता इंटरैक्शन के लिए उपयुक्त है। NVIDIA की टीपी अनुशंसा उत्पादन बुनियादी ढांचे के बजाय एक इंटरैक्टिव शिक्षण उपकरण के रूप में स्पार्क की स्थिति के अनुरूप है। एक डुअल-नोड स्पार्क क्लस्टर वितरित एआई के लिए एक किफायती शिक्षण मंच के रूप में कार्य करता है। भविष्य के परीक्षणों में बड़े क्लस्टर और एंड-टू-एंड छोटे-मॉडल प्रशिक्षण, लंबित लैब 800 जीबी स्विच परिनियोजन शामिल होंगे।
बीजिंग कियानक्सिंग जिएतोंग टेक्नोलॉजी कंपनी लिमिटेड
सैंडी यांग/वैश्विक रणनीति निदेशक
व्हाट्सएप/वीचैट: +86 13426366826
ईमेल: angyd@qianxingdata.com
वेबसाइट: www.qianxingdata.com/www.storagesserver.com
व्यवसाय फोकस:
आईसीटी उत्पाद वितरण/प्रणाली एकीकरण एवं सेवाएँ/बुनियादी ढाँचा समाधान
20+ वर्षों के आईटी वितरण अनुभव के साथ, हम विश्वसनीय उत्पाद और पेशेवर सेवाएं प्रदान करने के लिए अग्रणी वैश्विक ब्रांडों के साथ साझेदारी करते हैं।
"एक बुद्धिमान दुनिया बनाने के लिए प्रौद्योगिकी का उपयोग करना" आपका विश्वसनीय आईसीटी उत्पाद सेवा प्रदाता!
सैंडी यांग/वैश्विक रणनीति निदेशक
व्हाट्सएप/वीचैट: +86 13426366826
ईमेल: angyd@qianxingdata.com
वेबसाइट: www.qianxingdata.com/www.storagesserver.com
व्यवसाय फोकस:
आईसीटी उत्पाद वितरण/प्रणाली एकीकरण एवं सेवाएँ/बुनियादी ढाँचा समाधान
20+ वर्षों के आईटी वितरण अनुभव के साथ, हम विश्वसनीय उत्पाद और पेशेवर सेवाएं प्रदान करने के लिए अग्रणी वैश्विक ब्रांडों के साथ साझेदारी करते हैं।
"एक बुद्धिमान दुनिया बनाने के लिए प्रौद्योगिकी का उपयोग करना" आपका विश्वसनीय आईसीटी उत्पाद सेवा प्रदाता!



