Summary
- DeepOps프로젝트는 GPU 서버 클러스터 및 한대 서버에서 GPU를 배포하고 서비스하는 최고 솔루션들로 구성
- 현재 최신버젼은 DeepOps 19.07 Release 이며, NVIDIA DGX OS 4, Ubuntu 18.04 LTS, CentOS 7 만 지원
https://github.com/NVIDIA/deepops/releases/tag/19.07
이번 장에서는 본격적인 설치 전에 필요한 준비사항들을 알아보자
Provisioning Node
- 각 프로그램 배포 및 설치를 담당한다. 초기 및 재설치에만 필요하므로, VM 형태를 추천
- H/W 준비 : Laptop, Workstation or Virtual Machine (Ubuntu 18.04 LTS or RHEL/CentOS 7 installed)
- S/W 준비 : github에서 코드 복사 ( 코드 블록 참조 )
ㄴ DeepOps 디렉토리에는 설치에 필요한 Scripts / Program 코드와 클러스터 운영에 필요한 컨테이너들이 포함 - Setup 실행 : Node H/W사양에 따라 파일 압축 푸는 시간이 달라집니다. (1CPU VM 기준 20분 소요)
git clone --recurse-submodules https://github.com/NVIDIA/deepops
# git version 2.16.2 와 이전버젼은 --recursive 를 사용
cd deepops
git submodule update
# 설치 (asible and other software)
./scripts/setup.sh
- Ansible System : 자동으로 설정(Configuration)하는 툴
- Ansible Inventory File 수정 (각 노드의 IP 입력)
- Passwordless Connection 설정 필요
설치할 주요 Program 요약설명
- Kubernetes (K8s) : automating deployment, scaling, and management of containerized applications.
( https://kubernetes.io/docs/concepts/overview/what-is-kubernetes/ ) - Slurm : fault-tolerant, and highly scalable cluster management and job scheduling system.
( https://slurm.schedmd.com/overview.html )