Shabakadda neerfaha YaLM 100B ficil ahaan.

Программирование

Dhamaadkii Juunyo, Yandex
ayaa sii daysay shabakad neural ah oo leh 100 bilyan oo cabbir oo loo yaqaan YaLM 100B dadweynaha . Waa shabakadda neerfaha ee ugu weyn GPT-sida ee qaybta dadweynaha. Waxay ka warramaysaa sida ay wax u bareen, u muujiyeen tusaalooyinka ugu fiican iyo waxa neuronku awood u leeyahay. Laakiin miyay ku fiican tahay ku-dhaqanka oo ma habboon tahay guriga? Maqaalku waa ka aamusan yahay tan, sidoo kale, ma fududa in la ordo oo la hubiyo, maadaama qiyaastii 200 Gb ee RAM GPU loo baahan yahay. Faalladan Habré
ayaa si sax ah u daaha ka qaadaysa xaaladda
.

Sida la sheegay, Yandex, dhammaan dadka caqli-galka ah, oo xitaa ma aysan soo dhejin sida caadiga ah. Ma jiro api loogu talagalay moodel weyn, ma jiro qaab dhexdhexaad ah ama qaab yar oo diyaarsan oo dadka caadiga ah (Google Colab). Wax tusaale ah lagama bixin sida loo dejiyo qaabka, sida qoraalka loo sameeyo. Kaliya waa in maqaalku uu tilmaamayo dhowr nooc oo nerds ah waana taas. Waa ku filan tahay in si qoto dheer loo eego sida bangigu u sameeyay xarafka “C” oo uu sameeyo sidaas oo kale. Waxaan helay fikradda ah in qaabkani uu yahay mid ka mid ah tijaabooyinka fashilmay ee naxariista lahaa in lagu tuuro qashinka, sidaas darteed waxaa lagu dhajiyay Open Source si loo muujiyo waxa moodooyinka waaweyn ee Yandex abuuraa, iyo weliba, waa il furan!

Waxaa jira su’aalo badan oo ku saabsan internetka sida loo ordo yalm ama xitaa isku day intarnetka, laakiin ma jiraan jawaabo tan. Waxaan ka mid ahaa isticmaalayaasha waydiiyey su’aalahan. Oo go’aan ka gaarista. Maadaama aan runtii u baahday qaab aan ku soo saaro qoraallo loogu talagalay robots maaliyadeed. Si ay u saadaaliyaan ma aha oo kaliya qiyamka, laakiin sidoo kale uga faalloodaan qoraalka, oo ku saleysan warbixinnada maaliyadeed. Nuxur ahaan, waxay la mid noqon doontaa waxa falanqeeyayaasha maaliyadeed ay sameeyaan, oo kaliya isticmaalka sirdoonka macmal. Waxaa jira laba siyaabood oo loo ordi karo yalm.
Ijaarso server-ka daruurtaoo leh 200+ Gb GPU RAM ama wax ka beddel koodka oo ku socodsii xawaare eber eber ah (marka GPUgu si isdaba joog ah u socodsiiyo qayb ka mid ah shabakada neerfaha, inta soo hadhayna lagu kaydiyo CPU RAM ama NVMe). Midka ugu horreeya waa mid aad qaali u ah, qiyaastii 2500 rubles saacaddii ama 1.7 milyan bishii. Midda labaad aan la garanayn, sababtoo ah koodka ku jira kaydka lama bixiyo, kaliya
tilmaamo ku saabsan arrinta kaydka, taas oo aan dhib lahayn in la sameeyo. Aan ku bilowno fudud

Tilmaamaha Bilowga YaLM 100B

1. Waxaan kiraysanay 200 GB GPU RAM, tusaale ahaan halkan .

Shabakadda neerfaha YaLM 100B ficil ahaan.

Waxaad u baahan tahay ugu yaraan 200 GB ee xusuusta muqaalka 8×40 = 320 GB. Kan kaliya ayaa ku habboon. In ka yar 200 waa wax aan suurtagal ahayn, wax badan ayaa suurtagal ah. Falaadhtu waxay tilmaamaysaa RAM-ka CPU, ma eegno. Waxay noqon kartaa qof kasta.

Waxaan ku tusin saxan ku saabsan 300 GB, si la firaaqo ah iyo doorbidayo disk degdeg ah, sababtoo ah. tobanaan gigabytes oo xog ah ayaa loo wareejin doonaa oo laga soo qaadi doonaa.

Shabakadda neerfaha YaLM 100B ficil ahaan. Markaad abuureyso ilo, dooro Ubuntu ML (Machine Learning). Tani waa qasab si kaararka fiidiyowga loo habeeyo oo aan waxba loo baahnayn in lagu rakibo.

Markaad abuureyso server, waxaa jira nuances leh kootada, waxaa laga yaabaa inaad dareento in qalabka aan la heli karin, laakiin dhab ahaantii waxaad u baahan tahay oo kaliya inaad kordhiso kootada goobaha. Ka dib markii server-ka la furo (waxay qaadan kartaa 5-10 daqiiqo), ku xir serverka adoo isticmaalaya ssh ama si toos ah konsole webka ee bogga serverka oo fuliyo amarka.

nvidia-smi

Natiijadu waa inay noqotaa miis leh kaararka fiidyowga, nooca darawalka iyo cuda. Qiyaastii sidaan.
Shabakadda neerfaha YaLM 100B ficil ahaan. In madaxa nooca darawalka iyo meesha. Dhinaca bidix waxaa ku yaal lambarrada aaladaha, dhexda waxaa ku yaal cabbirka xusuusta aaladda. Haddii aanad hayn macluumaadkan, markaa waxaad ka soo ururisay server-ka il khaldan. Ubuntu ML (Machine Learnong) ayaa loo baahan yahay, sida kor lagu sharaxay.

2. Ku xidh kaydka YaLM

sudo git clone https://github.com/yandex/YaLM-100B/ yalm
cd yalm

Ku xidh galka gurigaaga si aadan u baahneyn inaad wax ka beddesho qaab-dhismeedka docker ka dib. Haddii meel kale lagu dhufto, ka dib
halkan tag oo ku dar dariiqa meesha la isku duubay.

3. Soo deji isbaarooyinka (macluumaadka tababarka tusaalaha aasaasiga ah)

sudo chmod +x ./download/download.sh
sudo bash ./download/download.sh

Tani waxay qaadan doontaa ilaa hal saac. Si aan wakhtiga lumin ee aan micne lahayn, waxaanu abuurnaa xidhiidh cusub oo ssh ah oo barbar socda waxaanu bilaabaynaa inaanu dhisno weel-dhaliye.

4. Ku rakib nvidiadocker 2

Docker- ka caadiga ah kuma habboona,
nvidia-docker2 ayaa loo baahan yahay .
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#setting-up-nvidia-container-toolkit

5. Dhisida weel loogu talagalay YaLM

cd yalm
sudo chmod +x ./docker/*
sudo bash ./docker/build.sh

Sidoo kale waa ilaa hal saac.

jabsiga nolosha. Waxaad soo dejisan kartaa isbaarooyinka, waxaad rakibi kartaa docker oo waxaad ku dhisi kartaa weel server raqiis ah oo wata hal kaadh oo fiidiyoow ah. Waxay ahaan doontaa isla wakhtiga, si aad wax yar u badbaadiso. Ka dib marka la isku daro server raqiis ah, waxaan tirtirnaa, oo aan abuurnaa server-ka dagaalka anagoo adeegsanayna saxan ka soo jeeda server raqiis ah. Markaa ma bixin doontid waqti dheeraad ah oo aad sugto shirka iyo soo saarista isbaarooyinka.

6. Diyaari nuxurka

6.1 Isbaarooyinka

Ka dib marka la soo dejiyo isbaarooyinka la dhammeeyo, waxaad u baahan tahay inaad ku siibto qaabaynta. Waxaa jira laba dariiqo, xuduudaha saxda ah ama isbaarooyinka wareejinta. Meel kasta waxaa la filayaa in isbaaradu ay ku jiraan buugga ugu weyn ee mashruuca, siday u kala horreeyaan, wixii la soo dejiyey waa in laga soo wareejiyaa galka kor ku xusan. Inaad ku jirto gal yalm fuli

mv ./download/yalm100b_Checkpoint ./

Ama u beddel waddooyinka faylalka ku jira faylalka tusaalaha
https://github.com/yandex/YaLM-100B/blob/c91b7d7fe8dbf39c9e307d6d324446d0df136a23/emples/generate_interactive.sh#L8-L9

6.2 Kaararka fiidiyowga

Waxaan hubineynaa in kaadhadhka fiidyaha ay si sax ah u dejiyeen. Haddii aad haysato siddeed kaarar oo fiidiyoow ah, markaa waxba uma baahna in la beddelo. Haddii nambarku ka duwan yahay, ka dibna waxaan ku beddeleynaa khadadkan
Shabakadda neerfaha YaLM 100B ficil ahaan. khadka labaad, nambarada qalabka loo isticmaalo (waxaad ku eegi kartaa nvidia-smi, oo aad horay u bilowday). Marka afraad, tiradoodii.

7. Orod weelka docker-ka

Markaad ku jirto galka yalm, fuli amarka

sudo bash ./docker/run.sh

Haddii wax walba ay hagaagsan yihiin, markaas waxaa lagu geynayaa weel aad u baahan tahay si aad u gasho galka yalmka ee ku yaal tusaha gurigaaga.

cd ~/yaal

8. Ku socodsii tusaalaha YaLM 100B

Waxaan diyaar u nahay inaan bilowno mid ka mid ah tusaalooyinka. Waxay ku qeexan yihiin
halkan .

chmod +x ./examples/generate_interactive.sh
./examples/generate_interactive.sh

U samir, waxay ahaanaysaa inaad sugto 10-15 daqiiqo oo kale ilaa qaabka GPT la abuurayo oo culeyska isbaarooyinka la raro.
Shabakadda neerfaha YaLM 100B ficil ahaan.

Marka dhismuhu dhamaado, MegatronML waxay kugu dhiirigelin doontaa inaad gasho macnaha guud si aad u abuurto qoraal. Ka digtoonow markaad wax qorayso. Xaalado gaar ah, qalad ayaa dhaca, barnaamijku wuu burburaa oo waxaad u baahan tahay inaad mar kale bilowdo kulanka. Sidaa darteed, waxaa fiican in la isticmaalo tusaalayaal ka soo qaadanaya qoraalka faylka.

9. Natiijooyinka shaqada

Shabakadda neerfaha YaLM 100B ficil ahaan.
Shabakadda neerfaha YaLM 100B ficil ahaan. Waxay u egtahay mid xiiso leh Dabcan, kuwani waa tusaale wanaagsan oo kaliya. Waxaan tijaabiyay muunado kala duwan. Sida la filayo, marka macnaha guud uu sii fiicnaado, qoraalka macno badan ayaa la soo saari doonaa. Jiilalka tijaabada ah ee buuxa waxaa laga eegi karaa isku xirka:

Qiimaha, waxay igu kacday qiyaastii 9 kun oo rubi ah kiraynta server-yada awoodaha kala duwan ee tababarka iyo diyaarinta ilaa jiil. Niyad-xumo gaar ah ayaa ahayd inaadan isla markiiba wax walba dhalin karin. Waxay qaadataa wakhti aad u dheer in la bilaabo qoraalkuna uma soo baxo sida ugu dhakhsaha badan ee aan rabno, marka loo eego qiimaha server-ka saacaddii.
Shabakadda neerfaha YaLM 100B ficil ahaan.  

Sidee loo socodsiiyaa YaLM la’aanteed 200Gb GPU RAM?

Waxaad u baahan tahay inaad ku darto dejinta xawaaraha eber ee isku xidhka. Kuwa garanaya waxa aan ka hadlayno, waxay noqon doontaa mid aad u fudud in la sameeyo. Kuwa kale, tani maaha hawl yar haba yaraatee. Waa muhiim in la ogaado in soo dejinta ay ku jiri karto CPU RAM ama NVMe. Waxaad illoobi kartaa NVMe xilligan, sababtoo ah. tiro aad u badan oo xog ah ayaa la farsameynayaa oo saxanku aanu la qabsan karin. Zero offload CPU waa ka dhab. Run, tan waxaad u baahan tahay inaad haysato 200+ Gb CPU RAM oo kayd ah, taas oo aan sidoo kale raqiis ahayn. Oo hal qoraal ayaa la soo saari doonaa ilaa 20-40 daqiiqo, maadaama aysan wali suurtagal ahayn in lagu barbar dhigo laba kaarar oo fiidiyoow ah. Sida aad ku arki karto sawirka hoose, hal kaar oo fiidiyoow ah ayaa ku lug lahaa jiilka, ka dibna kaliya rubuc ka mid ah xusuusta. Waa la arki doonaa sababta dhammaan 24 GB aan loo isticmaalin,
Shabakadda neerfaha YaLM 100B ficil ahaan. Hagaag, gabagabadii, waxaan dhihi doonaa waa suurtagal in lagu ordo xitaa hal RTX 3070 TI. Laakiin ma jirto dareen gaar ah oo arrintan ku saabsan, sababtoo ah. NVMe kuma oggolaan doonto inaad si dhakhso leh uga baaraandegto 150 GB ee xogta is beddelka, kuwaas oo ku jira lifaaqa 96 GB ee RAM.
Shabakadda neerfaha YaLM 100B ficil ahaan.

Isku soo wada duuboo

Dabcan, waxaan wali isku dayi doonaa inaan helo dariiqyada bilowga ugu fiican. Laakiin ilaa hadda waxaan gaadhay gabagabada in YaLM 100b uu aad qaali u yahay / aad uga gaabinayo hawlahayga. Isla lacagtaas, dadku waxay wax u qori doonaan wax badan oo aad u wanaagsan. Laakiin waxaan filayaa inay ku meel gaar tahay, waan arki doonaa. Haddii aad u baahan tahay in lagaa caawiyo bilaabista, samaynta yalmka, ama aad rabto in aad aragto natiijooyinka tusaalahaaga macnaha guud, u qor boostada ama telegramka.

pskucherov
Rate author
Add a comment

  1. Olha

    Статья на Мега актуальную тему! Спасибо.

    Reply
  2. Данила

    Крутая статья! Спасибо автору!

    Reply
  3. Дмитрий

    СПАСИБО !!!
    три дня эту информацию искал
    нет подобного о RuGPT3 и Порфириче?

    Reply