실제로 신경망 YaLM 100B.

Программирование

6월 말 Yandex
는 YaLM 100B라는 1000억 개의 매개변수가 있는 신경망을 공개 했습니다. 공개 도메인에서 가장 큰 GPT와 같은 신경망입니다. 그것은 그들이 어떻게 가르쳤는지, 최고의 예를 보여주었고, 뉴런이 무엇을 할 수 있는지에 대해 알려줍니다. 그러나 그것이 실제로 그렇게 좋고 가정에서 적용 가능한가? 이 기사는 이에 대해 침묵하고 있으며 약 200Gb의 GPU RAM이 필요하기 때문에 실행 및 확인이 쉽지 않습니다. Habré에 대한
이 댓글 은 상황을 가장 정확하게 드러냅니다
.

의심되는 바에 따르면 Yandex에는 그러한 모든 똑똑한 사람들이 있으며 정상적인 방법을 게시하지도 않았습니다. 대형 모델에 대한 API가 없으며 일반 사람들을 위해 기성품으로 제작된 중소형 모델도 없습니다(Google Colab에 있음). 모델을 설정하는 방법, 텍스트를 생성하는 방법에 대한 예는 제공되지 않습니다. 기사가 괴상한 사람들을 위한 몇 가지 뉘앙스를 나타내는 것뿐입니다. 은행이 문자 “C”로 어떻게했는지 자세히 살펴보고 동일하게 수행하면 충분합니다. 이 모델은 그냥 쓰레기통에 버리기 아까운 실패한 실험 중 하나라는 인상을 받아 오픈소스에 올려 얀덱스가 만들어낸 훌륭한 모델을 보여주고, 게다가 오픈소스다!

인터넷에 yalm을 실행하는 방법이나 온라인으로 시도하는 방법에 대한 질문이 많이 있지만 이에 대한 답변은 없습니다. 나는 이러한 질문을 한 사용자 중 하나였습니다. 그리고 그것을 알아내기 시작했습니다. 금융 로봇을 위한 텍스트를 생성할 방법이 정말로 필요했기 때문입니다. 재무 보고서를 기반으로 값을 예측할 수 있을 뿐만 아니라 텍스트로 주석을 달 수도 있습니다. 본질적으로 인공 지능을 사용하는 경우에만 재무 분석가가 하는 것과 동일합니다. yalm을 실행하는 방법은 두 가지가 있습니다.
클라우드에서 서버 임대200GB 이상의 GPU RAM을 사용하거나 코드를 완성하고 deepspeed 제로 오프로드를 사용하여 실행합니다(GPU가 신경망의 일부를 순차적으로 처리하고 나머지는 CPU RAM 또는 NVMe에 저장되는 경우). 첫 번째 것은 시간당 약 2500 루블 또는 한 달에 170 만 달러로 매우 비쌉니다. 두 번째로 알려지지 않았기 때문에 리포지토리의 코드는 제공되지 않고 리포지토리
의 문제에 대한 힌트 만 제공되므로 어렵지 않습니다. 간단하게 시작해 보겠습니다.

YaLM 100B 실행 지침

1. 예를 들어 여기에서 200GB GPU RAM을 임대 합니다 .

실제로 신경망 YaLM 100B.

최소 200GB의 총 비디오 메모리가 필요합니다. 8×40 = 320GB. 이것만 해당됩니다. 200 미만은 불가능하고 더 많은 것이 가능합니다. 화살표는 CPU RAM을 나타내며 우리는 그것을 보지 않습니다. 그녀는 누구나 될 수 있습니다.

우리는 약 300GB의 디스크를 나타내므로 예비 디스크가 있고 빠른 디스크가 바람직하기 때문입니다. 수십 기가바이트의 데이터가 송수신됩니다.

실제로 신경망 YaLM 100B.소스에서 생성할 때 Ubuntu ML(Machine Learning)을 선택합니다. 이것은 비디오 카드가 구성되고 추가로 설치할 필요가 없도록 하기 위해 필수입니다.

서버가 활성화된 후(5-10분 정도 소요될 수 있음) ssh를 통해 서버에 연결하거나 서버 페이지의 웹 콘솔에서 직접 연결하고 명령을 실행합니다.

엔비디아-smi

결과는 비디오 카드, 드라이버 버전 및 cuda가 포함된 테이블이어야 합니다. 대략 이렇습니다.
실제로 신경망 YaLM 100B.드라이버 버전 헤더 및 위치. 왼쪽에는 장치 번호가 있고 가운데에는 장치 메모리의 크기가 있습니다. 이 정보가 없으면 잘못된 소스에서 서버를 수집한 것입니다. 위에서 설명한 대로 Ubuntu ML(Machine Learningong)이 필요합니다.

2. YaLM으로 저장소 복제

sudo 자식 클론 https://github.com/yandex/YaLM-100B/yalm
cd yalm

나중에 도커 구성을 편집할 필요가 없도록 홈 폴더에 복제합니다. 다른 곳에서 복제된 경우
여기로 이동 하여 복제된 위치에 경로를 추가하십시오.

3. 체크포인트 다운로드(기본 모델 교육 정보)

sudo chmod +x ./download/download.sh
sudo bash ./download/download.sh

약 1시간 정도 소요됩니다. 시간을 헛되이 낭비하지 않기 위해 새로운 ssh 연결을 만들고 동시에 도커 컨테이너를 구축하기 시작합니다.

4. nvidiadocker 2 설치

일반 도커는 적합하지 않으며
nvidia-docker2 가 필요합니다 .
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#setting-up-nvidia-container-toolkit

5. YaLM용 컨테이너 빌드

CD 얄름
sudo chmod +x ./docker/*
sudo bash ./docker/build.sh

그것도 한 시간 정도.

인생 해킹. 하나의 비디오 카드로 저렴한 서버에 체크포인트를 다운로드하고, 도커를 설치하고, 컨테이너를 구축할 수 있습니다. 시간이 지나면 동일하므로 조금 절약할 수 있습니다. 저렴한 서버에 조립 후 삭제하고 저렴한 서버의 디스크를 이용하여 전투 서버를 생성합니다. 그러면 조립을 기다리고 체크 포인트를 펌핑하는 시간을 초과 지불하지 않을 것입니다.

6. 콘텐츠 준비

6.1 체크포인트

체크포인트 다운로드가 끝나면 구성에 넣어야 합니다. 매개변수를 수정하거나 체크포인트를 전송하는 두 가지 방법이 있습니다. 체크포인트가 각각 프로젝트의 기본 디렉토리에 있을 것으로 예상되는 모든 곳에서 다운로드되는 것은 위의 다운로드 폴더에서 전송되어야 합니다. yalm 폴더에 있으면 실행

mv ./다운로드/yalm100b_checkpoint ./

또는 예제 파일
https://github.com/yandex/YaLM-100B/blob/c91b7d7fe8dbf39c9e307d6d324446d0df136a23/examples/generate_interactive.sh#L8-L9 에서 파일의 경로를 변경하십시오.

6.2 비디오 카드

비디오 카드가 올바르게 설정되었는지 확인합니다. 8개의 비디오 카드가 있는 경우 변경할 필요가 없습니다. 번호가 다른 경우 다음 행을 변경합니다
실제로 신경망 YaLM 100B.. 두 번째 행에서 사용된 장치의 번호입니다(이미 실행한 nvidia-smi에서 볼 수 있음). 네 번째, 그들의 수.

7. 도커 컨테이너 실행

yalm 폴더에 있는 상태에서 명령을 실행합니다.

sudo bash ./docker/run.sh

모든 것이 정상이면 홈 디렉토리의 yalm 폴더로 이동해야 하는 컨테이너로 이동합니다.

cd ~/yalm

8. YaLM 100B에서 예제 실행

예제 중 하나를 시작할 준비가 되었습니다. 여기 에 설명되어
있습니다 .

chmod +x ./examples/generate_interactive.sh
./examples/generate_interactive.sh

GPT2 모델이 생성되고 체크포인트의 가중치가 로드될 때까지 10-15분 더 기다려야 합니다.
실제로 신경망 YaLM 100B.

빌드가 완료되면 MegatronML은 텍스트를 생성하기 위해 컨텍스트를 입력하라는 메시지를 표시합니다. 입력할 때 주의하십시오. 특정 상황에서 오류가 발생하고 프로그램이 충돌하며 어셈블리를 다시 시작해야 합니다. 따라서 파일에서 텍스트를 가져오는 예제를 사용하는 것이 좋습니다.

9. 작업 결과

실제로 신경망 YaLM 100B.
실제로 신경망 YaLM 100B.재미있어 보인다. 물론 이것들은 좋은 예일 뿐입니다. 다양한 샘플로 테스트를 진행했습니다. 예상대로 컨텍스트가 좋을수록 더 의미 있는 텍스트가 생성됩니다. 실험적 세대의 전체 세트는 다음 링크에서 볼 수 있습니다.

가격면에서 교육 및 준비에서 세대에 이르기까지 다양한 용량의 서버를 임대하는 데 약 9,000 루블이 들었습니다. 특히 실망은 모든 것을 즉시 생성할 수 없다는 것입니다. 시간당 서버 비용을 고려할 때 시작하는 데 매우 오랜 시간이 걸리고 텍스트가 원하는 만큼 빨리 생성되지 않습니다.
실제로 신경망 YaLM 100B. 

200Gb GPU RAM 없이 YaLM을 실행하는 방법은 무엇입니까?

구성에 deepspeed 제로 오프로드를 추가해야 합니다. 우리가 무슨 말을 하는지 아는 사람들은 그것을 하는 것이 매우 쉬울 것입니다. 다른 사람들에게 이것은 결코 사소한 일이 아닙니다. 오프로드가 CPU RAM 또는 NVMe에 있을 수 있음을 아는 것이 중요합니다. 지금은 NVM을 잊어버릴 수 있습니다. 매우 많은 양의 데이터가 처리되고 있으며 디스크가 이를 처리할 수 없습니다. 제로 오프로드 CPU가 더 현실적입니다. 사실, 이를 위해서는 200GB 이상의 CPU RAM이 있어야 하며, 이는 또한 저렴하지 않습니다. 그리고 두 개의 비디오 카드에서 아직 병렬화할 수 없었기 때문에 약 20-40분 동안 하나의 텍스트가 생성됩니다. 아래 스크린샷에서 볼 수 있듯이 하나의 비디오 카드만 생성에 포함되었으며 메모리의 1/4만 사용되었습니다. 24GB가 모두 사용되지 않는 이유는 여전히 남아 있습니다.
실제로 신경망 YaLM 100B.글쎄요, 결론은 하나의 RTX 3070 TI로도 구동이 가능하다고 말씀드리고 싶습니다. 그러나 여기에는 특별한 의미가 없기 때문입니다. NVMe를 사용하면 96GB RAM의 부속 장치에 있는 스왑에서 150GB 데이터를 빠르게 처리할 수 없습니다.
실제로 신경망 YaLM 100B.

합산

물론 최적의 발사 경로를 찾기 위해 계속 노력할 것입니다. 그러나 지금까지는 YaLM 100b가 내 작업에 비해 너무 비싸거나 너무 느리다는 결론에 도달했습니다. 같은 돈으로 사람들은 훨씬 더 많이 그리고 훨씬 더 잘 쓸 것입니다. 하지만 일시적인 현상이라고 생각합니다. 지켜보겠습니다. yalm을 시작하거나 설정하는 데 도움이 필요하거나 컨텍스트 예제에서 결과를 보려면 메일이나 전보에 편지를 보내세요.

pskucherov
Rate author
Add a comment

  1. Olha

    Статья на Мега актуальную тему! Спасибо.

    응답
  2. Данила

    Крутая статья! Спасибо автору!

    응답
  3. Дмитрий

    СПАСИБО !!!
    три дня эту информацию искал
    нет подобного о RuGPT3 и Порфириче?

    응답