Neural network YaLM 100B i le faatinoga. - Программирование, инвестиции и алготрейдинг

I le faaiuga o Iuni, na tuʻuina atu ai e Yandex
se fesoʻotaʻiga neural ma le 100 piliona taʻaloga e taʻua o YaLM 100B i tagata lautele . Ole feso’ota’iga neural tele e pei ole GPT ile fa’alapotopotoga lautele. O loʻo taʻu mai ai le auala na latou aʻoaʻo atu ai, faʻaalia ai faʻataʻitaʻiga sili ona lelei ma mea e mafai e le neuron. Ae pe lelei tele i le faʻatinoga ma faʻaoga i le fale? O le tusiga e le leoa e uiga i lenei mea, e le gata i lea, e le faigofie tele ona tamoe ma siaki, talu ai e manaʻomia le 200 Gb o le GPU RAM. O lenei faʻamatalaga i luga o Habré
e faʻaalia ai le tulaga sili ona saʻo
.

Fai mai, i Yandex, o tagata atamamai uma, ma latou te leʻi faʻapipiʻiina foi se masani Faʻafefea. E leai se api mo se faʻataʻitaʻiga tele, e leai se faʻataʻitaʻiga faʻapipiʻiina poʻo se tamaʻi faʻataʻitaʻiga mo tagata masani (i Google Colab). E leai se fa’ata’ita’iga o lo’o tu’uina mai ile fa’atutuina o le fa’ata’ita’iga, pe fa’apefea ona fa’atupu tusitusiga. Pau lava le mea o loʻo faʻaalia e le tusiga ni nai nuances mo nerds ma o le mea lena. Ua lava le vaʻavaʻai totoʻa i le auala na faia ai e le faletupe i le mataitusi “C” ma fai tutusa. Na ou maua le lagona o lenei faʻataʻitaʻiga ua naʻo se tasi o faʻataʻitaʻiga le manuia o se mea e faanoanoa ai e lafo i le lapisi, o lea na faʻapipiʻi ai i le Open Source e faʻaalia ai faʻataʻitaʻiga sili na faia e Yandex, ma e le gata i lea, o se punaoa tatala!

E tele fesili ile Initaneti pe faʻafefea ona taʻavale yalm pe faʻataʻitaʻi i luga ole laiga, ae leai ni tali i lenei mea. O aʻu sa i ai i le au faʻaoga na fesiligia nei fesili. Ma amata loa ona mafaufau i ai. Talu ai ou te matua manaʻomia se auala e faʻatupu ai tusitusiga mo robots tau tupe. Ina ia mafai ona latou vavalo e le gata o tau, ae faʻapea foʻi ma faʻamatalaga i tusitusiga, faʻavae i luga o lipoti tau tupe. O le mea moni, o le a tutusa ma mea e fai e le au suʻesuʻe tupe, naʻo le faʻaaogaina o le atamai faʻapitoa. E lua auala e tamo’e ai le yalm.
Totogi se server i le aofaʻatasi ai ma le 200+ Gb GPU RAM poʻo le suia o le code ma tamoʻe ma le deepspeed zero offload (pe a faʻasolosolo faʻasolosolo e le GPU se vaega o le fesoʻotaʻiga neural, ae o isi mea e teuina i le CPU RAM poʻo le NVMe). O le mea muamua e taugata tele, e tusa ma le 2500 rubles i le itula poʻo le 1.7 miliona i le masina. Le iloa lona lua, ona e le o tuʻuina atu le code i totonu o le faleoloa, naʻo
faʻamatalaga i le mataupu o le fale teu oloa, e le faigata ona fai. Tatou amata faigofie.

Contents

YaLM 100B Fa’atonuga Fa’alauiloa
1. Matou te lisiina le 200 GB GPU RAM, mo se faʻataʻitaʻiga iinei .
2. Fa’apipi’i le fale teu oloa i le YaLM
3. La’u mai ai siaki (fa’amatalaga fa’aa’oa’oga fa’atusa)
4. Fa’apipi’i le nvidia – docker2
5. Fausia se atigipusa mo YaLM
6. Saunia anotusi
6.1 Nofoaga siaki
6.2 Kata vitiō
7. Fa’amomoe le koneteina fa’atau
8. Fa’ata’ita’i le fa’ata’ita’iga mai le YaLM 100B
9. I’uga o le galuega
E faʻafefea ona faʻatautaia YaLM e aunoa ma le 200Gb GPU RAM?
Aotelega

YaLM 100B Fa’atonuga Fa’alauiloa

1. Matou te lisiina le 200 GB GPU RAM, mo se faʻataʻitaʻiga iinei .

Neural network YaLM 100B i le faatinoga.

E te manaʻomia a itiiti ifo i le 200 GB o le aofaʻi o manatuaga vitio. 8×40 = 320 GB. Na’o le tasi lenei e fetaui. I lalo ifo o le 200 e le mafai, sili atu e mafai. O le aū e faʻaalia ai le CPU RAM, matou te le tilotilo i ai. E mafai ona avea o ia ma soo se tasi.

Matou te faʻaalia se tisiki e tusa ma le 300 GB, ina ia faʻatasi ma se faʻaagaga ma sili atu se tisiki vave, aua. sefulu o gigabytes o faʻamaumauga o le a faʻafeiloaʻi i ma mai ai.

Pe a fatuina i punaoa, filifili le Ubuntu ML (Machine Learning). E fa’atulafonoina lenei mea ina ia faʻapipiʻi kata vitio ma e leai se mea e manaʻomia ona faʻapipiʻi faʻaopoopo.

Pe a fatuina se ‘auʻaunaga, o loʻo i ai nuances ma quotas, e mafai ona e maua le lagona e le o maua meafaigaluega, ae o le mea moni e te manaʻomia le faʻateleina o quotas i tulaga. A maeʻa ona faʻagaoioia le ‘auʻaunaga (atonu e 5-10 minute), faʻafesoʻotaʻi i le ‘auʻaunaga e ala i le ssh pe tuusaʻo i le upega tafaʻilagi i luga o le itulau server ma faʻatino le poloaiga.

nvidia-smi

O le taunuuga e tatau ona avea ma se laulau ma kata vitio, faʻasologa o avetaavale ma cuda. Pe tusa lea.
Neural network YaLM 100B i le faatinoga. I le ulutala o le avetaavale ma le mea. I le itu tauagavale o numera o masini, i le ogatotonu o le tele o le masini manatua. Afai e leai sau faʻamatalaga, ona e aoina lea o le server mai le puna sese. Ubuntu ML (Machine Learnong) e manaʻomia, e pei ona faʻamatalaina i luga.

2. Fa’apipi’i le fale teu oloa i le YaLM

sudo git clone https://github.com/yandex/YaLM-100B/ yalm
cd yalm

Clone i lou fale faila ina ia e le tau toe teuteu le docker config mulimuli ane. Afai o lo’o fa’apipi’i i se isi mea,
alu i’i ma fa’aopoopo le ala i le mea ua fa’a-clone.

3. La’u mai ai siaki (fa’amatalaga fa’aa’oa’oga fa’atusa)

sudo chmod +x ./download/download.sh
sudo bash ./download/download.sh

E tusa ma le itula e alu ai. Ina ia aua neʻi faʻaumatia le taimi i le le aoga, matou te fatuina se fesoʻotaʻiga ssh fou ma i se tulaga tutusa, matou te amata fausia se koneteina docker.

4. Fa’apipi’i le nvidia – docker 2

E le talafeagai le taʻavale masani,
e manaʻomia le nvidia-docker2 .
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#setting-up-nvidia-container-toolkit

5. Fausia se atigipusa mo YaLM

cd yalm
sudo chmod +x ./docker/*
sudo bash ./docker/build.sh

E tusa foi ma le itula.

Ta’avale ola. E mafai ona e sii maia siaki, faʻapipiʻi le docker ma fausia se atigipusa i luga o se server taugofie ma se kata vitio e tasi. O le a tutusa i le taimi, o lea e mafai ai ona e faʻasaoina sina mea itiiti. A maeʻa le faʻapipiʻiina i luga o se server taugofie, matou te tapeina, ma fatuina se server taua e faʻaaoga ai se disk mai se server taugofie. Ona e le soona totogi lea o le taimi mo le faatalitali mo le faapotopotoga ma pamu i fafo nofoaga siaki.

6. Saunia anotusi

6.1 Nofoaga siaki

A maeʻa le laiga o siaki siaki, e tatau ona e faʻauluina i totonu o le configs. E lua auala, sa’o fa’amaufa’ailoga po’o fesiita’i nofoaga siaki. Soʻo se mea e faʻamoemoeina o le a iai siaki i le lisi autu o le poloketi, i le faasologa, o mea na sii mai e tatau ona faʻafeiloaʻi mai le faila o loʻo i luga. O le i ai i le yalm folder execute

mv ./download/yalm100b_checkpoint ./

Pe sui ala i faila i faila faʻataʻitaʻiga
https://github.com/yandex/YaLM-100B/blob/c91b7d7fe8dbf39c9e307d6d324446d0df136a23/examples/generate_interactive.sh#L8-L9

6.2 Kata vitiō

Matou te siaki ua sa’o le seti o kata vitio. Afai e valu au kata vitio, e leai se mea e tatau ona suia. Afai e ese le numera, ona matou suia lea o laina nei
I le laina lona lua, numera o masini faʻaaogaina (e mafai ona e vaʻai i ai i le nvidia-smi, lea ua uma ona e faʻalauiloaina). I le lona fa, o latou numera.

7. Fa’amomoe le koneteina fa’atau

I le i ai i totonu o le yalm folder, faatino le poloaiga

sudo bash ./docker/run.sh

Afai e lelei mea uma, ona ave lea o oe i se atigipusa e te manaʻomia e te alu ai i le faila yalm i lau lisi o fale.

cd ~/yalm

8. Fa’ata’ita’i le fa’ata’ita’iga mai le YaLM 100B

Ua matou sauni e faʻalauiloa se tasi o faʻataʻitaʻiga. O loʻo faʻamatalaina
iinei .

chmod +x ./examples/generate_interactive.sh
./examples/generate_interactive.sh

Onosaʻi, e faʻatali pea le isi 10-15 minute seʻia oʻo ina faia le GPT faʻataʻitaʻiga ma utaina le mamafa mai siaki siaki.
Neural network YaLM 100B i le faatinoga.

A maeʻa le fausiaina, MegatronML o le a faʻamalosia oe e ulufale i se tala e faʻatupu ai tusitusiga. Fa’aeteete pe ae taina. I lalo o nisi tulaga, e tupu se mea sese, ua paʻu le polokalame ma e tatau ona e toe amata le faʻapotopotoga. O le mea lea, e sili atu le faʻaaogaina o faʻataʻitaʻiga e ave tusitusiga mai se faila.

9. I’uga o le galuega

Neural network YaLM 100B i le faatinoga.
E foliga manaia. Ioe, ua na o ni faaaʻoaʻoga lelei. Na ou faia le suʻega i faʻataʻitaʻiga eseese. E pei ona faʻamoemoeina, o le lelei o le faʻamatalaga, o le tele foi o le anoa o tusitusiga o le a gaosia. O le seti atoa o tupulaga fa’ata’ita’i e mafai ona va’aia i so’otaga:

Mo le tau, e tau ia te aʻu e tusa ma le 9 afe rubles mo le lisiina o sapalai o tulaga eseese mai aʻoaʻoga ma mai sauniuniga i lea tupulaga. O se fa’anoanoaga fa’apitoa e le mafai ona e fa’atupu vave mea uma. E umi se taimi e amata ai ma e le maua vave le tusitusiga e pei ona tatou manaʻo ai, ona o le tau o le server i le itula.
Neural network YaLM 100B i le faatinoga.

E faʻafefea ona faʻatautaia YaLM e aunoa ma le 200Gb GPU RAM?

E mana’omia le fa’aopoopoina o le deepspeed zero offload i le config. Mo i latou e iloa le mea o loʻo matou talanoa ai, o le a matua faigofie lava ona fai. Mo isi, e le o se galuega faatauvaa. E taua le iloa o le faʻamalo e mafai ona iai ile CPU RAM poʻo le NVMe. E mafai ona e faʻagaloina NVMe i le taimi nei, aua. tele tele fa’amaumauga o lo’o fa’agasolo ma e le mafai e le disk ona fa’afetaui. Zero offload CPU e sili atu le moni. E moni, mo lenei mea e te manaʻomia le 200+ Gb CPU RAM i faʻatau, lea e le taugofie. Ma e tasi le tusitusiga o le a faia mo le tusa ma le 20-40 minute, talu ai e leʻi mafai ona faʻatusaina i luga o kata vitio e lua. E pei ona mafai ona e vaʻai i le faʻamalama o loʻo i lalo, naʻo le tasi le kata vitio na aofia i le augatupulaga, ona naʻo le kuata o le manatua. O loʻo tumau pea le vaʻaia pe aisea e le faʻaaogaina uma ai le 24 GB,
Neural network YaLM 100B i le faatinoga. Ia, i le faaiuga, o le a ou fai atu e mafai ona tamoe e oʻo lava i le tasi RTX 3070 TI. Ae leai se uiga faapitoa i lenei mea, aua. NVMe o le a le faʻatagaina oe e faʻagasolo vave le 150 GB o faʻamatalaga i le swap, o loʻo i totonu o le faʻaopoopoga o le 96 GB o le RAM.
Neural network YaLM 100B i le faatinoga.

Aotelega

Ioe, o le a ou taumafai pea e suʻe auala faʻalauiloa sili ona lelei. Ae o lea ua ou oʻo mai i le faaiuga o le YaLM 100b e taugata tele / telegese mo aʻu galuega. Mo le tupe lava e tasi, o le a sili atu ona tusitusi tagata ma sili atu ona lelei. Ae ou te manatu e le tumau, o le a tatou vaai. Afai e te manaʻomia se fesoasoani ile faʻalauiloaina, setiina o le yalm, pe manaʻo e vaʻai i faʻaiʻuga i au faʻataʻitaʻiga, tusi ile meli poʻo le telefoni.