Nẹtiwọọki Neural YaLM 100B ni iṣe.

Программирование

Ni ipari Oṣu Karun, Yandex
ṣe ifilọlẹ nẹtiwọọki nkankikan pẹlu awọn aye 100 bilionu ti a pe ni YaLM 100B si gbogbo eniyan . O jẹ nẹtiwọọki nkankikan ti o tobi julọ GPT ni agbegbe gbogbo eniyan. O sọ nipa bi wọn ṣe nkọ, ṣe afihan awọn apẹẹrẹ ti o dara julọ ati kini neuron jẹ agbara. Ṣugbọn ṣe o dara pupọ ni adaṣe ati pe o wulo ni ile? Nkan naa dakẹ nipa eyi, pẹlupẹlu, ko rọrun pupọ lati ṣiṣẹ ati ṣayẹwo, nitori isunmọ 200 Gb ti Ramu GPU nilo. Ọrọ asọye yii lori Habré
ṣafihan ipo naa ni pipe julọ
.

Ni ẹsun, ni Yandex, gbogbo iru awọn eniyan ọlọgbọn bẹ, ati pe wọn ko paapaa fiweranṣẹ deede Bawo-si. Ko si api fun awoṣe nla kan, ko si agbedemeji yiyọ kuro tabi awoṣe kekere fun awọn eniyan lasan (ni Google Colab). Ko si apẹẹrẹ ti a fun lori bi o ṣe le ṣeto awoṣe, bi o ṣe le ṣe ipilẹṣẹ ọrọ. O kan jẹ pe nkan naa tọkasi tọkọtaya kan ti nuances fun nerds ati pe iyẹn ni. O ti to lati wo bi banki ṣe ṣe pẹlu lẹta “C” ati ṣe kanna. Mo ni imọran pe awoṣe yii jẹ ọkan ninu awọn adanwo ti o kuna ti o jẹ aanu lati jabọ sinu idọti, nitorinaa o ti fiweranṣẹ ni Orisun Ṣii lati ṣafihan kini awọn awoṣe nla ti Yandex ṣẹda, ati paapaa, o jẹ orisun ṣiṣi!

Ọpọlọpọ awọn ibeere lo wa lori Intanẹẹti bi o ṣe le ṣiṣẹ yalm tabi paapaa gbiyanju lori ayelujara, ṣugbọn ko si awọn idahun si eyi. Mo wa laarin awọn olumulo ti o beere awọn ibeere wọnyi. Ki o si ṣeto nipa figuring o jade. Niwọn igba ti Mo nilo ọna kan lati ṣe ipilẹṣẹ awọn ọrọ fun awọn roboti inawo. Ki wọn le ṣe asọtẹlẹ kii ṣe awọn iye nikan, ṣugbọn tun sọ asọye lori rẹ ni ọrọ, da lori awọn ijabọ owo. Ni pataki, yoo jẹ kanna bi ohun ti awọn atunnkanka owo ṣe, nikan pẹlu lilo oye atọwọda. Awọn ọna meji lo wa lati ṣiṣẹ yalm.
Ya a olupin ninu awọsanmapẹlu 200+ Gb GPU Ramu tabi yi koodu pada ki o si ṣiṣẹ pẹlu deepspeed odo offload (nigbati GPU lesese ilana ara ti awọn nkankikan nẹtiwọki, ati awọn iyokù ti wa ni fipamọ ni Sipiyu Ramu tabi NVMe). Ni igba akọkọ ti jẹ gidigidi gbowolori, nipa 2500 rubles fun wakati kan tabi 1,7 million fun osu. Awọn keji aimọ, nitori koodu ti o wa ninu ibi ipamọ ko pese, awọn
imọran nikan ni ọrọ ibi ipamọ, eyiti ko ṣoro lati ṣe. Jẹ ki a bẹrẹ rọrun.

Awọn ilana ifilọlẹ YaLM 100B

1. A ya 200 GB GPU Ramu, fun apẹẹrẹ nibi .

Nẹtiwọọki Neural YaLM 100B ni iṣe.

O nilo o kere ju 200 GB ti iranti fidio lapapọ. 8×40 = 320 GB. Nikan eyi ni ibamu. Kere ju 200 ko ṣee ṣe, diẹ sii ṣee ṣe. Awọn itọka tọkasi awọn Sipiyu Ramu, a ko wo ni o. O le jẹ ẹnikẹni.

A tọkasi a disk ti nipa 300 GB, ki pẹlu kan apoju ati pelu a yara disk, nitori. mewa ti gigabytes ti data yoo wa ni ti o ti gbe si ati lati o.

Nẹtiwọọki Neural YaLM 100B ni iṣe.Nigbati o ba ṣẹda ninu awọn orisun, yan Ubuntu ML (Ẹkọ Ẹrọ). Eyi jẹ dandan ki awọn kaadi fidio ti tunto ati pe ko si ohun ti o nilo lati fi sii ni afikun.

Nigbati o ba ṣẹda olupin kan, awọn nuances wa pẹlu awọn ipin, o le ni rilara pe ohun elo ko si, ṣugbọn ni otitọ o kan nilo lati mu awọn ipin pọ si ninu awọn eto. Lẹhin ti a ti mu olupin ṣiṣẹ (o le gba awọn iṣẹju 5-10), sopọ si olupin nipasẹ ssh tabi taara ninu console wẹẹbu lori oju-iwe olupin ati ṣiṣe aṣẹ naa.

NVIDIA-smi

Abajade yẹ ki o jẹ tabili pẹlu awọn kaadi fidio, ẹya awakọ ati cuda. Ni isunmọ bii eyi.
Nẹtiwọọki Neural YaLM 100B ni iṣe.Ni akọsori version iwakọ ati ibi ti. Ni apa osi ni awọn nọmba ẹrọ, ni aarin ni iwọn iranti ẹrọ. Ti o ko ba ni alaye yii, lẹhinna o ti gba olupin naa lati orisun ti ko tọ. Ubuntu ML (Ẹrọ Learnong) nilo, bi a ti salaye loke.

2. Dii ibi ipamọ pẹlu YaLM

sudo git oniye https://github.com/yandex/YaLM-100B/ yalm
cd yalm

Clone si folda ile rẹ ki o ko ni lati ṣatunkọ atunto docker lẹhinna. Ti o ba ti cloned ibikan ni ohun miiran, ki o si
lọ nibi ki o si fi awọn ona si ibi ti cloned.

3. Ṣe igbasilẹ awọn aaye ayẹwo (alaye ikẹkọ awoṣe ipilẹ)

sudo chmod +x ./download/download.sh
sudo bash ./download/download.sh

Eyi yoo gba to wakati kan. Ni ibere ki o ma ṣe padanu akoko ni asan, a ṣẹda asopọ ssh tuntun kan ati ni afiwe a bẹrẹ si kọ eiyan docker kan.

4. Fi sori ẹrọ NVIDIAdocker 2

Docker deede ko dara,
nvidia-docker2 nilo .
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#setting-up-nvidia-container-toolkit

5. Ilé kan eiyan fun YaLM

cd yalm
sudo chmod +x ./docker/*
sudo bash ./docker/build.sh

O tun jẹ nipa wakati kan.

gige aye. O le ṣe igbasilẹ awọn aaye ayẹwo, fi sori ẹrọ docker ati kọ eiyan kan lori olupin olowo poku pẹlu kaadi fidio kan. Yoo jẹ kanna ni akoko, nitorinaa o le fipamọ diẹ. Lẹhin apejọ lori olupin olowo poku, a paarẹ rẹ, ati ṣẹda olupin ija nipa lilo disiki lati olupin olowo poku. Lẹhinna iwọ kii yoo san owo pupọ ju akoko fun iduro fun apejọ ati fifa awọn aaye ayẹwo jade.

6. Mura akoonu

6.1 Checkpoints

Lẹhin igbasilẹ ti awọn aaye ayẹwo ti pari, o nilo lati isokuso wọn sinu awọn atunto. Awọn ọna meji lo wa, awọn aye to tọ tabi awọn aaye ayẹwo gbigbe. Nibikibi o ti ṣe yẹ pe awọn aaye ayẹwo yoo wa ni itọsọna akọkọ ti ise agbese na, lẹsẹsẹ, ohun ti o ti gba lati ayelujara gbọdọ wa ni gbigbe lati folda igbasilẹ loke. Kikopa ninu folda yalm ṣiṣẹ

mv ./download/yalm100b_checkpoint ./

Tabi yi awọn ọna pada si awọn faili ni apẹẹrẹ awọn faili
https://github.com/yandex/YaLM-100B/blob/c91b7d7fe8dbf39c9e307d6d324446d0df136a23/examples/generate_interactive.sh#L8-L9

6.2 Awọn kaadi fidio

A ṣayẹwo pe awọn kaadi fidio ti ṣeto daradara. Ti o ba ni awọn kaadi fidio mẹjọ, lẹhinna ko si ohun ti o nilo lati yipada. Ti nọmba naa ba yatọ, lẹhinna a yi awọn ila wọnyi pada
Nẹtiwọọki Neural YaLM 100B ni iṣe.Ni ila keji, awọn nọmba ti awọn ẹrọ ti a lo (o le wo wọn ni nvidia-smi, eyiti o ti ṣe ifilọlẹ tẹlẹ). Ni kẹrin, nọmba wọn.

7. Ṣiṣe awọn docker eiyan

Ti o wa ninu folda yalm, ṣiṣẹ aṣẹ naa

sudo bash ./docker/run.sh

Ti ohun gbogbo ba dara, lẹhinna ao mu ọ lọ si apoti kan ninu eyiti o nilo lati lọ si folda yalm ninu ilana ile rẹ.

cd ~/yalm

8. Ṣiṣe apẹẹrẹ lati YaLM 100B

A ti ṣetan lati ṣe ifilọlẹ ọkan ninu awọn apẹẹrẹ. Wọn ti wa ni apejuwe
nibi .

chmod +x ./emples/generate_interactive.sh
./emples/generate_interactive.sh

Ṣe sũru, o wa lati duro fun awọn iṣẹju 10-15 miiran titi ti awoṣe GPT yoo fi ṣẹda ati awọn iwuwo lati awọn aaye ayẹwo.
Nẹtiwọọki Neural YaLM 100B ni iṣe.

Nigbati kikọ ba pari, MegatronML yoo tọ ọ lati tẹ ọrọ sii lati ṣẹda ọrọ. Ṣọra nigbati o ba tẹ. Labẹ awọn ayidayida kan, aṣiṣe waye, eto naa ṣubu ati pe o nilo lati bẹrẹ apejọ naa lẹẹkansi. Nitorina, o dara lati lo awọn apẹẹrẹ ti o ya ọrọ lati faili kan.

9. Awọn abajade ti iṣẹ naa

Nẹtiwọọki Neural YaLM 100B ni iṣe.
Nẹtiwọọki Neural YaLM 100B ni iṣe.Wulẹ awon. Dajudaju, iwọnyi jẹ apẹẹrẹ ti o dara nikan. Mo ran idanwo naa lori awọn apẹẹrẹ oriṣiriṣi. Gẹ́gẹ́ bí a ti retí, bí àyíká ọ̀rọ̀ bá ṣe túbọ̀ dára sí i, àwọn ọ̀rọ̀ tí ó ní ìtumọ̀ yóò túbọ̀ máa ṣe jáde. Eto kikun ti awọn iran idanwo ni a le wo ni awọn ọna asopọ:

Fun idiyele naa, o jẹ mi nipa 9 ẹgbẹrun rubles fun iyalo awọn olupin ti awọn agbara oriṣiriṣi lati ikẹkọ ati lati igbaradi si iran. Ibanujẹ kan pato ni pe o ko le ṣe ina ohun gbogbo lẹsẹkẹsẹ. Yoo gba akoko pipẹ pupọ lati bẹrẹ ati pe ọrọ ko ṣe ipilẹṣẹ ni yarayara bi a ṣe fẹ, fun idiyele ti olupin fun wakati kan.
Nẹtiwọọki Neural YaLM 100B ni iṣe. 

Bii o ṣe le ṣiṣẹ YaLM laisi 200Gb GPU Ramu?

O nilo lati ṣafikun agbejade odo ti o jinlẹ si atunto. Fun awọn ti o mọ ohun ti a n sọrọ nipa, yoo rọrun pupọ lati ṣe. Fun awọn miiran, eyi kii ṣe iṣẹ kekere rara. O ṣe pataki lati mọ pe pipaṣẹ le jẹ boya ni Sipiyu Ramu tabi NVMe. O le gbagbe nipa NVMe ni akoko, nitori. iye data ti o tobi pupọ ti wa ni ilọsiwaju ati disiki naa ko le koju rẹ. Zero offload Sipiyu jẹ gidi diẹ sii. Otitọ, fun eyi o nilo lati ni 200+ Gb CPU Ramu ni iṣura, eyiti ko tun jẹ olowo poku. Ati pe ọrọ kan yoo jẹ ipilẹṣẹ fun bii iṣẹju 20-40, nitori ko ti ṣee ṣe lati ṣe afiwe rẹ lori awọn kaadi fidio meji. Gẹgẹbi o ti le rii ninu sikirinifoto ni isalẹ, kaadi fidio kan nikan ni o ni ipa ninu iran, ati lẹhinna nikan fun idamẹrin ti iranti. O wa lati rii idi ti gbogbo 24 GB ko lo,
Nẹtiwọọki Neural YaLM 100B ni iṣe.O dara, ni ipari, Emi yoo sọ pe o ṣee ṣe lati ṣiṣẹ paapaa lori RTX 3070 TI kan. Ṣugbọn ko si ori kan pato ninu eyi, nitori. NVMe kii yoo gba ọ laaye lati ṣe ilana 150 GB ti data ni iyara ni swap, eyiti o wa ninu ohun elo 96 GB ti Ramu.
Nẹtiwọọki Neural YaLM 100B ni iṣe.

Akopọ

Nitoribẹẹ, Emi yoo tun gbiyanju lati wa awọn ọna ifilọlẹ to dara julọ. Ṣugbọn titi di isisiyi Mo ti de ipari pe YaLM 100b jẹ gbowolori pupọ / o lọra pupọ fun awọn iṣẹ ṣiṣe mi. Fun owo kanna, awọn eniyan yoo kọ pupọ diẹ sii ati dara julọ. Ṣugbọn Mo ro pe o jẹ igba diẹ, a yoo rii. Ti o ba nilo iranlọwọ pẹlu ifilọlẹ, ṣeto yalm, tabi fẹ lati rii awọn abajade lori awọn apẹẹrẹ ọrọ-ọrọ rẹ, kọ si meeli tabi teligram.

pskucherov
Rate author
Add a comment

  1. Olha

    Статья на Мега актуальную тему! Спасибо.

    Reply
  2. Данила

    Крутая статья! Спасибо автору!

    Reply
  3. Дмитрий

    СПАСИБО !!!
    три дня эту информацию искал
    нет подобного о RuGPT3 и Порфириче?

    Reply