Не дазваляйце сховішчам стаць ключавым вузкім месцам у навучанні мадэлям

Было сказана, што тэхналагічныя кампаніі альбо змагаюцца за GPU, альбо збіраюцца іх набыць. У красавіку генеральны дырэктар Tesla Ілон Маск набыў 10 000 графічных працэсараў і заявіў, што кампанія працягне купляць вялікую колькасць графічных працэсараў у NVIDIA. На прадпрыемстве ІТ-персанал таксама прыкладае ўсе намаганні, каб гарантаваць пастаяннае выкарыстанне графічных працэсараў для максімальнай аддачы ад інвестыцый. Аднак некаторыя кампаніі могуць выявіць, што ў той час як колькасць графічных працэсараў павялічваецца, бяздзейнасць графічных працэсараў становіцца больш сур'ёзнай.

Калі гісторыя чамусьці навучыла нас аб высокапрадукцыйных вылічэннях (HPC), дык гэта таму, што сховішчам і сеткай нельга прыносіць у ахвяру за кошт занадта вялікай увагі да вылічэнняў. Калі сховішча не можа эфектыўна перадаваць дадзеныя ў вылічальныя блокі, нават калі ў вас больш за ўсё графічных працэсараў у свеце, вы не дасягнеце аптымальнай эфектыўнасці.

Па словах Майка Матчэта, аналітыка Small World Big Data, меншыя мадэлі могуць быць выкананы ў памяці (RAM), што дазваляе больш засяродзіцца на вылічэннях. Аднак вялікія мадэлі, такія як ChatGPT з мільярдамі вузлоў, нельга захоўваць у памяці з-за высокага кошту.

«Вы не можаце змясціць мільярды вузлоў у памяць, таму сховішча становіцца яшчэ больш важным», - кажа Матчэт. На жаль, захоўванне дадзеных часта не ўлічваецца ў працэсе планавання.

У цэлым, незалежна ад варыянту выкарыстання, у працэсе навучання мадэлі ёсць чатыры агульныя пункты:

1. Мадэльнае навучанне
2. Вывад Ужыванне
3. Захоўванне дадзеных
4. Паскораныя вылічэнні

Пры стварэнні і разгортванні мадэляў большасць патрабаванняў аддаюць перавагу асяроддзям хуткага пацверджання канцэпцыі (POC) або тэсціравання для ініцыяцыі навучання мадэлям, пры гэтым патрэбы ў захоўванні даных не ўдзяляюцца ў першую чаргу.

Аднак праблема заключаецца ў тым, што навучанне або разгортванне высновы можа доўжыцца некалькі месяцаў ці нават гадоў. У гэты час многія кампаніі хутка павялічваюць памер сваіх мадэляў, і інфраструктура павінна пашырацца, каб змясціць растучыя мадэлі і наборы даных.

Даследаванне, праведзенае Google на мільёнах навучальных нагрузак ML, паказвае, што ў сярэднім 30% навучальнага часу траціцца на канвеер уваходных даных. У той час як мінулыя даследаванні былі сканцэнтраваны на аптымізацыі графічных працэсараў для паскарэння навучання, усё яшчэ застаецца шмат праблем у аптымізацыі розных частак канвеера даных. Калі ў вас ёсць значная вылічальная магутнасць, сапраўдным вузкім месцам становіцца тое, як хутка вы можаце ўводзіць дадзеныя ў вылічэнні для атрымання вынікаў.

У прыватнасці, праблемы захоўвання і кіравання данымі патрабуюць планавання росту даных, што дазваляе бесперапынна здабываць каштоўнасць даных па меры прасоўвання, асабліва калі вы адважваецеся на больш прасунутыя варыянты выкарыстання, такія як глыбокае навучанне і нейронавыя сеткі, якія прад'яўляюць павышаныя патрабаванні да сховішча з пункту гледжання ёмістасці, прадукцыйнасці і маштабаванасці.

У прыватнасці:

Маштабаванасць
Машыннае навучанне патрабуе апрацоўкі велізарных аб'ёмаў даных, і па меры павелічэння аб'ёму даных павышаецца і дакладнасць мадэляў. Гэта азначае, што прадпрыемствы павінны збіраць і захоўваць больш дадзеных кожны дзень. Калі сховішча не можа маштабавацца, працоўныя нагрузкі з інтэнсіўным аб'ёмам дадзеных ствараюць вузкія месцы, абмяжоўваючы прадукцыйнасць і прыводзячы да дарагога часу прастою GPU.

Гнуткасць
Гнуткая падтрымка некалькіх пратаколаў (у тым ліку NFS, SMB, HTTP, FTP, HDFS і S3) неабходная для задавальнення патрэб розных сістэм, а не абмяжоўвацца адным тыпам асяроддзя.

Затрымка
Затрымка ўводу-вываду мае вырашальнае значэнне для стварэння і выкарыстання мадэляў, паколькі дадзеныя чытаюцца і перачытваюцца некалькі разоў. Памяншэнне затрымкі ўводу-вываду можа скараціць час навучання мадэляў на дні ці месяцы. Хутчэйшая распрацоўка мадэляў непасрэдна азначае большыя перавагі для бізнесу.

Прапускная здольнасць
Прапускная здольнасць сістэм захоўвання мае вырашальнае значэнне для эфектыўнага навучання мадэлям. Працэсы навучання ўключаюць вялікія аб'ёмы даных, звычайна ў тэрабайтах у гадзіну.

Паралельны доступ
Для дасягнення высокай прадукцыйнасці навучальныя мадэлі разбіваюць дзеянні на некалькі паралельных задач. Гэта часта азначае, што алгарытмы машыннага навучання атрымліваюць доступ да адных і тых жа файлаў з некалькіх працэсаў (патэнцыйна на некалькіх фізічных серверах) адначасова. Сістэма захоўвання павінна апрацоўваць адначасовыя патрабаванні без шкоды для прадукцыйнасці.

Дзякуючы выдатным магчымасцям у галіне нізкай затрымкі, высокай прапускной здольнасці і буйнамаштабнага паралельнага ўводу-вываду, Dell PowerScale з'яўляецца ідэальным дадаткам да сховішча вылічэнняў з GPU-паскарэннем. PowerScale эфектыўна скарачае час, неабходны для аналізу мадэляў, якія навучаюць і тэстуюць шматтэрабайтныя наборы даных. У флэш-назапашвальніку PowerScale прапускная здольнасць павялічваецца ў 18 разоў, ухіляючы вузкія месцы ўводу-вываду, і можа быць дададзены да існуючых кластараў Isilon для паскарэння і раскрыцця каштоўнасці вялікіх аб'ёмаў неструктураваных даных.

Больш за тое, магчымасці шматпратакольнага доступу PowerScale забяспечваюць неабмежаваную гнуткасць для выканання працоўных нагрузак, дазваляючы захоўваць даныя з выкарыстаннем аднаго пратакола і атрымліваць доступ з дапамогай іншага. У прыватнасці, магутныя функцыі, гнуткасць, маштабаванасць і функцыянальнасць карпаратыўнага ўзроўню платформы PowerScale дапамагаюць вырашаць наступныя задачы:

- Паскарэнне інавацый да 2,7 разоў, скарачэнне цыкла навучання мадэлі.

- Ліквідацыя вузкіх месцаў уводу-вываду і забеспячэнне больш хуткага навучання і праверкі мадэляў, павышэння дакладнасці мадэлі, павышэння прадукцыйнасці навукі аб дадзеных і максімальнай аддачы ад інвестыцый у вылічальную тэхніку за кошт выкарыстання функцый карпаратыўнага ўзроўню, высокай прадукцыйнасці, паралелізму і маштабаванасці. Павысьце дакладнасць мадэлі з больш глыбокімі наборамі даных з больш высокай разрознасцю, выкарыстоўваючы да 119 ПБ эфектыўнай ёмістасці захоўвання ў адным кластары.

- Дасягніце маштабнага разгортвання, пачынаючы з невялікага і незалежнага маштабавання вылічэнняў і захоўвання, забяспечваючы надзейную абарону даных і параметры бяспекі.

- Палепшыце прадукцыйнасць навукі аб дадзеных з дапамогай аналітыкі на месцы і папярэдне правераных рашэнняў для больш хуткага разгортвання з нізкім узроўнем рызыкі.

- Выкарыстанне правераных канструкцый, заснаваных на лепшых у сваім родзе тэхналогіях, уключаючы паскарэнне графічных працэсараў NVIDIA і эталонныя архітэктуры з сістэмамі NVIDIA DGX. Высокая прадукцыйнасць і паралелізм PowerScale адпавядаюць патрабаванням да прадукцыйнасці захоўвання на ўсіх этапах машыннага навучання, ад атрымання і падрыхтоўкі даных да навучання мадэляў і вываду. Разам з аперацыйнай сістэмай OneFS усе вузлы могуць бесперашкодна працаваць у адным кластары, кіраваным OneFS, з такімі функцыямі карпаратыўнага ўзроўню, як кіраванне прадукцыйнасцю, кіраванне данымі, бяспека і абарона даных, што дазваляе больш хуткаму праходжанню навучання мадэлі і праверцы для прадпрыемстваў.


Час публікацыі: 3 ліпеня 2023 г