אל תתנו לאחסון להפוך לצוואר הבקבוק המרכזי בהכשרת דוגמניות

נאמר שחברות טכנולוגיה מחפשות מעבדי GPU או בדרך לרכוש אותם. באפריל, מנכ"ל טסלה אילון מאסק רכש 10,000 GPUs והצהיר כי החברה תמשיך לקנות כמות גדולה של GPUs מ-NVIDIA. בצד הארגוני, אנשי IT גם דוחפים חזק כדי להבטיח שמעבדי GPU ינוצלו כל הזמן כדי למקסם את ההחזר על ההשקעה. עם זאת, חברות מסוימות עשויות לגלות שבעוד שמספר ה-GPUs גדל, הבטלה של GPU נעשית חמורה יותר.

אם ההיסטוריה לימדה אותנו משהו על מחשוב בעל ביצועים גבוהים (HPC), זה שאסור להקריב אחסון ורשת על חשבון התמקדות רבה מדי בחישוב. אם האחסון לא יכול להעביר נתונים ביעילות ליחידות המחשוב, גם אם יש לך את מירב ה-GPUs בעולם, לא תשיג יעילות אופטימלית.

לדברי מייק מאצ'ט, אנליסט בחברת Small World Big Data, ניתן לבצע מודלים קטנים יותר בזיכרון (RAM), מה שמאפשר התמקדות רבה יותר בחישוב. עם זאת, לא ניתן לאחסן בזיכרון דגמים גדולים יותר כמו ChatGPT עם מיליארדי צמתים בגלל העלות הגבוהה.

"אי אפשר להכניס מיליארדי צמתים בזיכרון, כך שהאחסון הופך להיות חשוב עוד יותר", אומר Matchett. למרבה הצער, לעתים קרובות מתעלמים מאחסון נתונים במהלך תהליך התכנון.

באופן כללי, ללא קשר למקרה השימוש, ישנן ארבע נקודות נפוצות בתהליך הכשרת המודל:

1. אימון דוגמניות
2. יישום היסק
3. אחסון נתונים
4. מחשוב מואץ

בעת יצירה ופריסה של מודלים, רוב הדרישות נותנות עדיפות להוכחה מהירה של מושג (POC) או סביבות בדיקה כדי ליזום הדרכת מודלים, כאשר צורכי אחסון הנתונים אינם ניתנים לשיקול ראשוני.

עם זאת, האתגר טמון בעובדה שהכשרה או פריסת מסקנות יכולה להימשך חודשים ואף שנים. חברות רבות מגדילות במהירות את גדלי המודלים שלהן במהלך תקופה זו, והתשתית חייבת להתרחב כדי להכיל את המודלים ואת מערכי הנתונים ההולכים וגדלים.

מחקר מגוגל על ​​מיליוני עומסי עבודה של אימון ML מגלה כי ממוצע של 30% מזמן האימון מושקע בצינור נתוני הקלט. בעוד מחקרים קודמים התמקדו באופטימיזציה של מעבדי GPU כדי להאיץ את האימון, עדיין נותרו אתגרים רבים באופטימיזציה של חלקים שונים בצנרת הנתונים. כאשר יש לך כוח חישוב משמעותי, צוואר הבקבוק האמיתי הופך לכמה מהר אתה יכול להזין נתונים לחישובים כדי לקבל תוצאות.

באופן ספציפי, האתגרים באחסון וניהול נתונים דורשים תכנון לצמיחת נתונים, מה שמאפשר לך לחלץ ללא הרף את הערך של הנתונים תוך כדי התקדמות, במיוחד כאשר אתה יוצא למקרי שימוש מתקדמים יותר כמו למידה עמוקה ורשתות עצביות, שמציבות דרישות גבוהות יותר על אחסון מבחינת קיבולת, ביצועים ומדרגיות.

בִּפְרָט:

מדרגיות
למידת מכונה דורשת טיפול בכמויות אדירות של נתונים, וככל שנפח הנתונים גדל, גם הדיוק של המודלים משתפר. המשמעות היא שעסקים חייבים לאסוף ולאחסן יותר נתונים מדי יום. כאשר האחסון אינו יכול להתרחב, עומסי עבודה עתירי נתונים יוצרים צווארי בקבוק, מגבילים את הביצועים וכתוצאה מכך זמן סרק של GPU יקר.

גְמִישׁוּת
תמיכה גמישה עבור פרוטוקולים מרובים (כולל NFS, SMB, HTTP, FTP, HDFS ו-S3) נחוצה כדי לענות על הצרכים של מערכות שונות, במקום להיות מוגבל לסוג אחד של סביבה.

חֶבִיוֹן
זמן השהיית קלט/פלט הוא קריטי לבנייה ושימוש במודלים מכיוון שהנתונים נקראים ונקראים מחדש מספר פעמים. הפחתת זמן השהייה של קלט/פלט יכולה לקצר את זמן האימון של דגמים בימים או חודשים. פיתוח מודלים מהיר יותר מתורגם ישירות ליתרונות עסקיים גדולים יותר.

תפוקה
התפוקה של מערכות אחסון חיונית להכשרת מודלים יעילה. תהליכי אימון כוללים כמויות גדולות של נתונים, בדרך כלל בטרה-בייט לשעה.

גישה מקבילה
כדי להשיג תפוקה גבוהה, מודלים של אימון מפצלים פעילויות למספר משימות מקבילות. לעתים קרובות זה אומר שאלגוריתמים של למידת מכונה ניגשים לאותם קבצים ממספר תהליכים (אפשרי על מספר שרתים פיזיים) בו זמנית. מערכת האחסון חייבת להתמודד עם דרישות במקביל מבלי לפגוע בביצועים.

עם היכולות הבולטות שלו בהשהייה נמוכה, תפוקה גבוהה ו-I/O מקבילי בקנה מידה גדול, Dell PowerScale הוא משלים אחסון אידיאלי למחשוב מואץ GPU. PowerScale מפחית ביעילות את הזמן הנדרש למודלים של ניתוח המאמנים ובודקים מערכי נתונים מרובי טרה-בתים. באחסון PowerScale All-Flash, רוחב הפס גדל פי 18, מבטל צווארי בקבוק של קלט/פלט, וניתן להוסיף אותו לאשכולות Isilon קיימים כדי להאיץ ולפתוח את הערך של כמויות גדולות של נתונים לא מובנים.

יתרה מכך, יכולות הגישה הרב-פרוטוקוליות של PowerScale מספקות גמישות בלתי מוגבלת להפעלת עומסי עבודה, ומאפשרות לאחסן נתונים באמצעות פרוטוקול אחד ולגשת באמצעות פרוטוקול אחר. באופן ספציפי, התכונות החזקות, הגמישות, המדרגיות והפונקציונליות ברמה הארגונית של פלטפורמת PowerScale עוזרות להתמודד עם האתגרים הבאים:

- האץ את החדשנות עד פי 2.7, צמצום מחזור האימונים של המודל.

- הסר צווארי בקבוק של קלט/פלט וספק הדרכה ואימות מודל מהירים יותר, דיוק מודל משופר, פרודוקטיביות מדעית נתונים משופרת ותשואה מרבית על השקעות מחשוב על ידי מינוף תכונות ברמה ארגונית, ביצועים גבוהים, מקביליות ומדרגיות. שפר את דיוק המודל עם מערכי נתונים עמוקים יותר ברזולוציה גבוהה יותר על ידי מינוף של עד 119 PB של קיבולת אחסון יעילה באשכול יחיד.

- השג פריסה בקנה מידה על ידי התחלת קנה מידה קטן ועצמאי של מחשוב ואחסון, אספקת אפשרויות אבטחה ואבטחה חזקות.

- שפר את הפרודוקטיביות של מדעי הנתונים עם ניתוחים במקום ופתרונות מאומתים מראש לפריסות מהירות יותר בסיכון נמוך.

- מינוף עיצובים מוכחים המבוססים על הטכנולוגיות הטובות ביותר מהזן, כולל האצת NVIDIA GPU וארכיטקטורות ייחוס עם מערכות NVIDIA DGX. הביצועים הגבוהים והמקבילות של PowerScale עומדים בדרישות ביצועי האחסון בכל שלב של למידת מכונה, החל מרכישת נתונים והכנה ועד לאימון מודלים והסקת מסקנות. יחד עם מערכת ההפעלה OneFS, כל הצמתים יכולים לפעול בצורה חלקה בתוך אותו אשכול מונע על ידי OneFS, עם תכונות ברמת הארגון כגון ניהול ביצועים, ניהול נתונים, אבטחה והגנה על נתונים, המאפשרים השלמה מהירה יותר של הדרכה ואימות מודלים לעסקים.


זמן פרסום: יולי-03-2023