एआई मॉडल प्रशिक्षण के लिए चेकपॉइंटिंग आवश्यक है, क्योंकि यह लचीलापन, परिचालन दक्षता और सहेजे गए राज्यों से प्रशिक्षण को फिर से शुरू करने या ठीक करने की क्षमता सुनिश्चित करता है। हालांकि, आधुनिक एआई वर्कलोड की मांगें - जो तेजी से जटिल मॉडल और विशाल प्रशिक्षण डेटासेट की विशेषता है - भंडारण प्रणालियों को उनकी पूर्ण सीमा तक धकेल रही हैं।
एआई वर्कफ़्लो में चेकपॉइंट की भूमिका
एआई प्रशिक्षण में चेकपॉइंटिंग एक महत्वपूर्ण प्रक्रिया है जिसमें प्रशिक्षण चक्र के दौरान किसी मॉडल की पूरी स्थिति को समय-समय पर सहेजना शामिल है। इस स्थिति में मॉडल के वजन और पैरामीटर, ऑप्टिमाइज़र की स्थिति, सीखने की दर अनुसूची और प्रशिक्षण मेटाडेटा शामिल हैं। विशिष्ट अंतराल पर प्रशिक्षण प्रक्रिया का एक व्यापक स्नैपशॉट बनाकर, चेकपॉइंटिंग प्रशिक्षण निरंतरता की गारंटी देता है और रुकावटों की स्थिति में रिकवरी को सक्षम बनाता है।
चेकपॉइंट आमतौर पर पुनरावृति-आधारित अंतराल पर कैप्चर किए जाते हैं (जैसे, हर एक हजार प्रशिक्षण चरणों में)। आधुनिक बड़े भाषा मॉडल (एलएलएम) प्रशिक्षण - जो सप्ताह या महीनों तक चल सकता है और भारी कम्प्यूटेशनल संसाधनों का उपभोग कर सकता है - संभावित विफलताओं के खिलाफ सुरक्षा जाल के रूप में इन चेकपॉइंट पर बहुत अधिक निर्भर करता है। उदाहरण के लिए, जीपीटी-4-क्लास मॉडल को प्रशिक्षित करने से मॉडल के आकार और प्रशिक्षण कॉन्फ़िगरेशन के आधार पर कई सौ गीगाबाइट से लेकर कई टेराबाइट तक के चेकपॉइंट उत्पन्न हो सकते हैं।
DALL-E द्वारा उत्पन्न प्रशिक्षण प्रक्रिया
चेकपॉइंटिंग का प्राथमिक उद्देश्य केवल बैकअप कार्यक्षमता से परे है। यह प्रशिक्षण लचीलापन के लिए एक महत्वपूर्ण तंत्र के रूप में कार्य करता है, जिससे सिस्टम विफलताओं, बिजली आउटेज या हार्डवेयर मुद्दों के मामलों में खरोंच से पुनरारंभ करने के बजाय अंतिम सहेजे गए स्थिति से प्रशिक्षण फिर से शुरू हो सके। इसके अतिरिक्त, मॉडल विश्लेषण के लिए चेकपॉइंट अमूल्य हैं: वे शोधकर्ताओं को विभिन्न प्रशिक्षण चरणों में मॉडल के विकास की जांच करने और प्रदर्शन में गिरावट का पता चलने पर पिछले राज्यों में वापस जाने में सक्षम बनाते हैं।
भंडारण के दृष्टिकोण से, चेकपॉइंटिंग के दौरान राइट पैटर्न विशेष रूप से उल्लेखनीय हैं। जब कोई चेकपॉइंट ट्रिगर होता है, तो सिस्टम को बर्स्ट पैटर्न में भारी मात्रा में डेटा लिखना पड़ता है। यह एक विशिष्ट I/O प्रोफ़ाइल बनाता है: प्रशिक्षण गणनाओं के दौरान अपेक्षाकृत कम भंडारण गतिविधि की अवधि, चेकपॉइंटिंग के दौरान तीव्र, उच्च-बैंडविड्थ राइट संचालन के बाद। ये राइट ऑपरेशन आम तौर पर अनुक्रमिक होते हैं और उच्च-बैंडविड्थ अनुक्रमिक राइट के लिए अनुकूलित भंडारण प्रणालियों से महत्वपूर्ण रूप से लाभान्वित हो सकते हैं।
वितरित प्रशिक्षण में विभिन्न समानांतर रणनीतियों का चेकपॉइंटिंग व्यवहार पर एक महत्वपूर्ण प्रभाव पड़ सकता है। ये रणनीतियाँ प्रभावित करती हैं कि प्रशिक्षण के दौरान चेकपॉइंटिंग कब होती है और मॉडल का कौन सा हिस्सा सहेजा जाता है। आधुनिक वितरित प्रशिक्षण सेटअप में, कई जीपीयू एक साथ एक ही परत के विभिन्न भागों को लिख सकते हैं, जिससे जटिल I/O पैटर्न बनते हैं। यह समानांतर लेखन क्षमता दक्षता की कुंजी है लेकिन इसके लिए सावधानीपूर्वक समन्वय और मजबूत भंडारण प्रणालियों की आवश्यकता होती है जो डेटा स्थिरता बनाए रखते हुए समवर्ती लेखन संचालन को संभाल सकें। इस प्रक्रिया में कोई भी बाधा व्यापक प्रशिक्षण देरी का कारण बन सकती है।
धीमी चेकपॉइंटिंग महत्वपूर्ण प्रशिक्षण बाधाएं पैदा कर सकती है, क्योंकि चेकपॉइंट को स्टोरेज में लिखे जाने तक पूरी प्रशिक्षण प्रक्रिया को रोकना पड़ता है। उदाहरण के लिए, एक बड़े पैमाने पर प्रशिक्षण सेटअप में, यदि चेकपॉइंटिंग में कुछ घंटों में हर कुछ घंटों में 30 मिनट लगते हैं, तो इससे पूरे प्रशिक्षण अवधि में संचित डाउनटाइम के कई घंटे हो सकते हैं। यह सीधे प्रशिक्षण दक्षता को प्रभावित करता है और परिचालन लागत बढ़ाता है - विशेष रूप से क्लाउड वातावरण में जहां कम्प्यूटेशनल संसाधनों का बिल प्रति घंटा लिया जाता है।
तेज़ चेकपॉइंटिंग टीमों को अधिक बार चेकपॉइंट बनाने की भी अनुमति देती है, जिससे विफलताओं की स्थिति में अधिकतम संभावित डेटा हानि कम हो जाती है। यह अधिक आक्रामक प्रशिक्षण दृष्टिकोण और बेहतर प्रयोगात्मक पुनरावृति चक्रों को सक्षम बनाता है। इसके अलावा, तेजी से चेकपॉइंट लोडिंग समय विभिन्न प्रशिक्षण कॉन्फ़िगरेशन और मॉडल आर्किटेक्चर के साथ त्वरित प्रयोग की सुविधा प्रदान करते हैं, क्योंकि शोधकर्ता वैकल्पिक दृष्टिकोणों का परीक्षण करने के लिए पिछले राज्यों से आसानी से पुनर्स्थापित कर सकते हैं।
इन चेकपॉइंट संचालन को कुशलतापूर्वक संभालने के लिए भंडारण प्रणाली की क्षमता समग्र प्रशिक्षण अवसंरचना में एक महत्वपूर्ण कारक बन जाती है। उच्च-प्रदर्शन भंडारण समाधान जो चेकपॉइंटिंग के बर्स्ट राइट पैटर्न और प्रशिक्षण के निरंतर रीड/राइट संचालन दोनों को प्रबंधित कर सकते हैं, बड़े भाषा मॉडल को प्रशिक्षित करने के कुल समय और लागत को काफी कम कर सकते हैं। इस प्रकार, भंडारण उप-प्रणाली की प्रदर्शन विशेषताएँ - विशेष रूप से बड़े अनुक्रमिक राइट को संभालने और लगातार उच्च बैंडविड्थ बनाए रखने की इसकी क्षमता - एलएलएम प्रशिक्षण अवसंरचना को डिजाइन करते समय महत्वपूर्ण विचार हैं।
इस रिपोर्ट के लिए, हमने एआई चेकपॉइंटिंग के लिए एसएसडी प्रदर्शन का मूल्यांकन करने की मांग की, नवीनतम जेन5 एसएसडी के लाभों का आकलन किया जब चेकपॉइंट गति महत्वपूर्ण है, बाजार में सबसे बड़े क्यूएलसी एसएसडी की तुलना में - जो मॉडल को प्रशिक्षित किया जा रहा है, उसके लिए अधिक फायदेमंद होने पर बड़ी संख्या में चेकपॉइंट स्टोर कर सकते हैं।
चेकपॉइंट प्रदर्शन - डीएलआईओ के साथ बेंचमार्किंग
एआई प्रशिक्षण वातावरण में सॉलिडगिम एसएसडी के वास्तविक दुनिया के प्रदर्शन का मूल्यांकन करने के लिए, हमने डेटा और लर्निंग इनपुट/आउटपुट (डीएलआईओ) बेंचमार्क टूल का उपयोग किया। आर्गोन नेशनल लेबोरेटरी द्वारा विकसित, डीएलआईओ विशेष रूप से डीप लर्निंग वर्कलोड में आई/ओ पैटर्न का परीक्षण करने के लिए डिज़ाइन किया गया है, जो यह जानकारी प्रदान करता है कि भंडारण प्रणालियां चेकपॉइंटिंग, डेटा अंतर्ग्रहण और मॉडल प्रशिक्षण चुनौतियों को कैसे संभालती हैं।

डीएलआईओ का उपयोग करके, हमने गहन चेकपॉइंटिंग परिदृश्यों के तहत ड्राइव के थ्रूपुट, विलंबता और विश्वसनीयता को मापने का लक्ष्य रखा। जबकि यह परीक्षण 61.44 टीबी डी5-पी5336 पर किया गया था, प्रारंभिक प्रदर्शन डेटा इंगित करता है कि सॉलिडगिम डी5-पी5336 122 टीबी संस्करण समान प्रदर्शन प्रोफ़ाइल प्रदान करता है। हमने इस परीक्षण में पीसीआईई जेन5 के लाभों को प्रदर्शित करने के लिए टीएलसी-आधारित डी7-पीएस1010 से परिणाम भी शामिल किए। हमने चेकपॉइंट के दोनों दृष्टिकोणों को प्रदर्शित करने के लिए इन दो ड्राइव का चयन किया: एक सबसे तेज संभव चेकपॉइंट समय पर ध्यान केंद्रित करता है, और दूसरा एक एसएसडी पर चेकपॉइंट की अधिकतम संख्या को संग्रहीत करने पर।
इस कार्य के लिए चुना गया प्लेटफ़ॉर्म उबंटू 22.04.02 एलटीएस चलाने वाला हमारा डेल पावरएज आर760 था। हमने 13 अगस्त, 2024 के रिलीज़ से डीएलआईओ बेंचमार्क संस्करण 2.0 का उपयोग किया। हमारी सिस्टम कॉन्फ़िगरेशन नीचे उल्लिखित है:
- 2 x इंटेल ज़ीऑन गोल्ड 6430 (32-कोर, 2.1GHz)
- 16 x 64GB DDR5-4400
- 480GB डेल बॉस एसएसडी
- सीरियल केबल जेन5 जेबीओएफ
- 7.68TB सॉलिडगिम डी7-पीएस1010
- 61.44TB सॉलिडगिम डी5-पी5336
यह सुनिश्चित करने के लिए कि हमारी बेंचमार्किंग वास्तविक दुनिया के परिदृश्यों को दर्शाती है, हमने एलएलएएमए 3.1 405बी मॉडल आर्किटेक्चर पर आधारित अपने परीक्षणों को आधारित किया, मॉडल मापदंडों, ऑप्टिमाइज़र राज्यों और परत राज्यों को कैप्चर करने के लिए टॉर्च.सेव() के माध्यम से चेकपॉइंटिंग को लागू किया। हमारे सेटअप ने 8-जीपीयू सिस्टम का अनुकरण किया, जिसमें चार-तरफा टेंसर समानांतर और दो-तरफा पाइपलाइन समानांतर प्रसंस्करण के साथ एक हाइब्रिड समानांतर रणनीति लागू की गई थी, जो आठ जीपीयू में वितरित की गई थी। इस कॉन्फ़िगरेशन के परिणामस्वरूप 1,636 जीबी के चेकपॉइंट आकार हुए, जो आधुनिक बड़े भाषा मॉडल प्रशिक्षण आवश्यकताओं का प्रतिनिधि है।
डीएलआईओ चेकपॉइंट वर्कलोड के लिए हमारी परीक्षण प्रक्रिया में प्रत्येक ड्राइव को समान उपयोगिता स्तर तक भरना शामिल था। 61.44 टीबी सॉलिडगिम डी5-पी5336 के लिए, प्रत्येक पास में 33 चेकपॉइंट अंतराल शामिल थे, कुल 54 टीबी। छोटा 7.68 टीबी डी7-पीएस1010 आराम से तीन चेकपॉइंट अंतराल में फिट हुआ, जिसका कुल पदचिह्न 4.9 टीबी था। एक अतिरिक्त चेकपॉइंट डी7-पीएस1010 में फिट हो सकता था, हालांकि इसने इसके उपयोग को थोड़ा अधिक कर दिया जितना हम चाहते थे।
जब हमने जेन4 क्यूएलसी-आधारित 61.44 टीबी डी5-पी5536 की तुलना जेन5 टीएलसी-आधारित 7.68 टीबी डी7-पीएस1010 से की, तो डीएलआईओ चेकपॉइंट वर्कलोड ने दिलचस्प परिणाम दिए। पहले पास के दौरान, जैसे-जैसे ड्राइव भरते गए, हमने दो एसएसडी मॉडल के बीच प्रदर्शन में एक बड़ा अंतर देखा। तेज जेन5 पीएस1010 ने औसतन 464 सेकंड में प्रत्येक चेकपॉइंट पूरा किया, जबकि जेन4 पी5336 से 623 सेकंड लगे। दूसरे और तीसरे पास में, पीएस1010 के लिए 579 और 587 सेकंड और पी5336 के लिए 676 और 680 सेकंड तक का अंतर कम हो गया।
उन व्यवसायों के लिए जो चेकपॉइंटिंग अंतराल में सबसे छोटा संभव अंतर रखना चाहते हैं, टीएलसी-आधारित जेन5 पीएस1010 सबसे तेज पूर्णता समय में एक लाभ प्रदान करता है। यदि लक्ष्य लागत-प्रभावी ढंग से कई चेकपॉइंट बनाए रखना है, तो क्यूएलसी-आधारित जेन4 पी5336 ऐसा कर सकता है। हमने दूसरे और तीसरे पास के दौरान दोनों ड्राइव के बीच औसत चेकपॉइंट समय में 17% से कम का अंतर मापा।
जीपीयू डायरेक्ट स्टोरेज बैंडविड्थ
जबकि डीएलआईओ एक एआई वर्कफ़्लो में फ्लैश प्रदर्शन दिखाता है, वर्कलोड पूरी तरह से राइट-आधारित है जब तक कि कोई चेकपॉइंट बहाल न हो जाए। एआई वर्कलोड में सॉलिडगिम डी7-पीएस1010 और डी5-पी5336 की पूरी तस्वीर पेश करने के लिए, हमने जीडीएसआईओ का उपयोग करके रीड बैंडविड्थ माप शामिल किए।
जीपीयू डायरेक्ट स्टोरेज कैसे काम करता है
परंपरागत रूप से, जब कोई जीपीयू एनवीएमई ड्राइव पर संग्रहीत डेटा को संसाधित करता है, तो डेटा को जीपीयू तक पहुंचने से पहले सीपीयू और सिस्टम मेमोरी से गुजरना पड़ता है। यह प्रक्रिया बाधाएं पैदा करती है, क्योंकि सीपीयू एक मध्यस्थ बन जाता है, विलंबता जोड़ता है और मूल्यवान सिस्टम संसाधनों का उपभोग करता है। जीपीयू डायरेक्ट स्टोरेज इस अक्षमता को समाप्त करता है, जिससे जीपीयू को पीसीआईई बस के माध्यम से सीधे स्टोरेज डिवाइस से डेटा एक्सेस करने की अनुमति मिलती है। यह सीधा पथ डेटा आंदोलन से जुड़े ओवरहेड को कम करता है, जिससे तेज और अधिक कुशल डेटा स्थानांतरण होता है।
एआई वर्कलोड, विशेष रूप से डीप लर्निंग से जुड़े, अत्यधिक डेटा-गहन होते हैं। बड़े तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए टेराबाइट डेटा को संसाधित करने की आवश्यकता होती है, और डेटा स्थानांतरण में कोई भी देरी कम उपयोग किए गए जीपीयू और लंबे प्रशिक्षण समय का कारण बन सकती है। जीपीयू डायरेक्ट स्टोरेज यह सुनिश्चित करके इस चुनौती का समाधान करता है कि डेटा जीपीयू को यथासंभव तेज़ी से वितरित किया जाए, निष्क्रिय समय को कम किया जाए और कम्प्यूटेशनल दक्षता को अधिकतम किया जाए।
डीएलआईओ परीक्षण की तरह, लक्ष्य उच्च-गति जेन5 एसएसडी और उच्च-क्षमता क्यूएलसी ड्राइव के बीच अंतर को बेहतर ढंग से समझना और चित्रित करना है। हर एआई वर्कलोड एक जैसा नहीं होता है, और प्रत्येक ड्राइव विशिष्ट लाभ प्रदान करती है, जो आवश्यकता पर निर्भर करता है।
परीक्षण कॉन्फ़िगरेशन मैट्रिक्स
हमने अपने परीक्षण प्लेटफ़ॉर्म में एनवीडिया एल4 के साथ निम्नलिखित मापदंडों के प्रत्येक संयोजन का व्यवस्थित रूप से परीक्षण किया:
- ब्लॉक आकार: 1M, 128K, 64K, 16K, 8K
- थ्रेड गणना: 128, 64, 32, 16, 8, 4, 1
- जॉब गणना: 16
- बैच आकार: 16
हमारी पहली नज़र क्यूएलसी-आधारित डी5-पी5336 पर थी, जो 128 के आईओ गहराई पर 1 एम ट्रांसफर आकार का उपयोग करके 4.2 गिबी/एस तक पहुंच गई। ब्लॉक आकारों के प्रभाव ने 8K से 1M तक जाने वाले बैंडविड्थ में एक महत्वपूर्ण वृद्धि की। बढ़ी हुई आईओ गहराई का लाभ 32 पर टैपर होना शुरू हो गया, जहां वर्कलोड समतल होने लगे।
अगला, हम जेन5 पीएस-1010 को देखते हैं, जो 1 एम ब्लॉक आकार और 128 की आईओ गहराई पर 6.2 गिबी/एस तक स्केल कर सकता है। सभी तरफ, इसने जेन4-आधारित पी5336 को बेहतर प्रदर्शन किया, जिसमें विशेष वर्कलोड ने एक महत्वपूर्ण वृद्धि का प्रदर्शन किया। सुधार का एक उल्लेखनीय क्षेत्र 128K ब्लॉकसाइज में आया, जहां 64 और 128 की आईओ गहराई पर, पीएस1010 ने पी5336 के दोगुने रीड बैंडविड्थ की पेशकश की।
यह ध्यान रखना महत्वपूर्ण है कि दोनों एसएसडी का परीक्षण एनवीडिया एल4 का उपयोग करके किया गया था। जबकि जेन4 डी5-पी5336 अपने शीर्ष छोर पर या उसके करीब है, एच100 जैसे ऊपरी-मॉडल एनवीडिया जीपीयू ने डी7-पीएस1010 के साथ उच्च प्रदर्शन का प्रदर्शन किया। एक ड्राइव की गति कुछ ग्राहकों के लिए अंतिम निर्णायक कारक है, जबकि अन्य समग्र घनत्व को प्राथमिकता देते हैं।सॉलिडगिमके लिए समाधान प्रदान करता हैदोनों, अपने साथक्यूएलसी और टीएलसी एसएसडी प्रसाद।
निष्कर्ष
जैसे-जैसे एआई प्रशिक्षण का पैमाना और जटिलता बढ़ती जा रही है, अंतर्निहित भंडारण अवसंरचना को न केवल तालमेल बिठाना चाहिए, बल्कि गति भी निर्धारित करनी चाहिए। दो अलग-अलग एसएसडी के साथ हमारे परीक्षणों ने विशिष्ट प्रशिक्षण प्राथमिकताओं के साथ भंडारण समाधानों को संरेखित करने के महत्व को उजागर किया है - चाहे इसका मतलब चेकपॉइंट विलंबता को कम करना हो या लागत-प्रभावी स्केलेबिलिटी के लिए चेकपॉइंट घनत्व को अधिकतम करना हो।
हमारे मूल्यांकन में, हमने यथार्थवादी एआई प्रशिक्षण स्थितियों के तहत सॉलिडगिम डी5-पी5336 (61.44 टीबी) और डी7-पीएस1010 (7.68 टीबी) का परीक्षण किया, डीएलआईओ बेंचमार्क और एक व्यापक हाइब्रिड-पैरेलल एलएलएम चेकपॉइंटिंग वर्कफ़्लो का लाभ उठाया। हमने कई परीक्षण रनों में चेकपॉइंट राइट प्रदर्शन को दर्शाने वाले मेट्रिक्स कैप्चर किए क्योंकि ड्राइव भर गए, जेन4 क्यूएलसी-आधारित डी5-पी5336 और जेन5 टीएलसी-आधारित डी7-पीएस1010 के बीच पूर्णता समय में प्रदर्शन अंतर को रेखांकित किया।

जबकि डी7-पीएस1010 ने सबसे तेज संभव चेकपॉइंट राइट प्रदान किया, डी5-पी5336 ने सम्मोहक लागत-प्रभावशीलता और क्षमता लाभ प्रदर्शित किए, जिसमें केवल एक मामूली प्रदर्शन व्यापार-बंद था। हमने एनवीडिया एल4 जीपीयू के साथ जीडीएसआईओ का उपयोग करके जीपीयू डायरेक्ट स्टोरेज (जीडीएस) रीड बैंडविड्थ की भी जांच की। हमारे निष्कर्षों से पता चला कि सॉलिडगिम डी5-पी5336 ने 1 एम ट्रांसफर आकार के साथ 4.2 गिबी/एस तक रीड बैंडविड्थ प्रदान की, जबकि डी7-पीएस1010 ने 6.2 गिबी/एस तक एक महत्वपूर्ण वृद्धि प्रदान की। एनवीडिया एल40एस या एच100/एच200 जैसे अधिक शक्तिशाली जीपीयू का लाभ उठाते समय प्रदर्शन और भी प्रभावशाली होगा।
आगे देखते हुए, सॉलिडगिम डी5-पी5336 122 टीबी एसएसडी की अभूतपूर्व क्षमता एआई प्रशिक्षण और परिनियोजन को नया आकार देने के लिए तैयार है। जैसे-जैसे मॉडल आकार और चेकपॉइंटिंग आवश्यकताएं बढ़ती जा रही हैं, ये उच्च-क्षमता वाली ड्राइव दक्षता और लचीलेपन के नए स्तरों को खोलती हैं, जिससे पहले कभी प्राप्त नहीं की जा सकने वाली प्रशिक्षण रणनीतियों को सक्षम किया जा सके। उच्च-क्षमता वाली एसएसडी समाधानों में सॉलिडगिम का नेतृत्व संगठनों को कम ड्राइव पर अधिक डेटा और चेकपॉइंट स्टोर करने के लिए सशक्त बनाता है, जबकि एआई जटिलता की अगली लहर के खिलाफ उनके बुनियादी ढांचे को भविष्य-प्रूफ करने में मदद करता है।
बीजिंग कियानक्सिंग जिएटोंग टेक्नोलॉजी कं, लिमिटेड
सैंडी यांग/ग्लोबल स्ट्रेटेजी डायरेक्टर
व्हाट्सएप / वीचैट: +86 13426366826
ईमेल: yangyd@qianxingdata.com
वेबसाइट: www.qianxingdata.com/www.storagesserver.com
व्यावसायिक फोकस:
आईसीटी उत्पाद वितरण/सिस्टम एकीकरण और सेवाएं/बुनियादी ढांचा समाधान
20+ वर्षों के आईटी वितरण अनुभव के साथ, हम विश्वसनीय उत्पाद और पेशेवर सेवाएं प्रदान करने के लिए अग्रणी वैश्विक ब्रांडों के साथ साझेदारी करते हैं।
"प्रौद्योगिकी का उपयोग करके एक बुद्धिमान दुनिया का निर्माण" आपका विश्वसनीय आईसीटी उत्पाद सेवा प्रदाता!