概述
智能超算中心 (SICC) 內含多套計算平台以提供GPU計算平台以供使用深度學習及虛擬數據中心予單位使用。智能超算中心內含多套計算平台直接提供下列計算服務:
- 華為雲:以提供PaaS (Platform as a Service 平台即服務) 為主,主要用以創建VDC、VM以供用戶長期使用。因此,資源能分配到多個用戶上,亦可提供資源讓用戶搭建客製化平台與服務。本服務將提供超過 5,000 個計算核心、48 台伺服器及 16 個圖形處理器 (GPU),並配備超大記憶體 10TB 的計算伺服器及600TB容量。相較於HPCC,SICC以划分資源形式服務單位和團體。
- DGX集群:該平台由3台DGX-H800、4台DGX-A100以及1台 DGX-2,並配搭快速存儲設備NetApp及2台高速交換機組成。NVIDIA DGX-2 搭載16個完全互連的Tesla-v100 GPU為核心,為第一個每秒2千兆字節浮點運算 (petaFLOPS) 智能計算系統;而NVIDIA DGX-A100 及NVIDIA DGX-H800是在全球率先採用 NVIDIA A100 / H800 Tensor Core GPU 的系統,通過集成八塊 A100 GPU / H800 GPU具有 320GB GPU 及640GB GPU內存,此系統可出色完成加速任務,AI計算平台採用可擴展的架構,使得模型的複雜度和規模不受傳統架構的限制,可以應對許多複雜的人工智能挑戰。每台DGX在深度學習算力上能達至甚至超越傳統大型超算中心相約水準。
- GPU計算平台:
– 寒武紀以12台GPU 服務器及48個GPU搭建一個智能超算平台,配以1台存儲服務器、2台網絡服務器,以供多用戶同時使用及共用GPU資源。
– 透過提供服務器托管服務,整合學校多位教授的資源,搭建GPU排程平台,以實現多用戶共享資源。
使用
設備
華為雲服務
節點 | 數量 | 計算核心數 | 內存(GB) | 機械硬盤(TB) | GPU |
管理節點 | 3 | 96 | 1344 | — | — |
網絡節點 | 2 | 64 | 768 | — | — |
計算存儲節點 | 24 | 960 | 15360 | 600 | — |
GPU計算節點 | 2 | 96 | 768 | — | 16 x NVIDIA® Tesla® V100 |
登入資訊:https://console.sicc.um.edu.mo/
DGX集群
節點 | 數量 | 計算核心數 | 內存(GB) | 機械硬盤(TB) | 固態硬盤(TB) | GPU |
---|---|---|---|---|---|---|
主節點 | 1 | 32 | 128 | 1.5 | — | — |
GPU計算節點 DGX-2 | 1 | 96 | 1500 | — | 30 | 16 x NVIDIA® Tesla® V100 |
GPU計算節點 DGX-A100 | 4 | 1024 | 4000 | — | 60 | 32 x NVIDIA® A100-40GB |
GPU計算節點 DGX-H800 | 3 | 672 | 6000 | — | 60 | 24 x NVIDIA® H800-80GB |
高速存儲設備 NetApp | 1 | — | — | — | 210 | — |
Nvidia MSN交換機 | 最高速度可達200GbE |
所有 DGX 和 存儲設備NetApp都通過速度為 200GbE 的 Nvidia MSN 交換機連接。
登入和使用資訊:SSH Client and Slurm 排程
LICO GPU 集群 (寒武紀圖形處理器)
節點 | 數量 | 計算核心數 | 內存(GB) | 機械硬盤(TB) | 固態硬盤(TB) | GPU |
主節點 | 1 | 40 | 128 | — | — | — |
登錄節點 | 3 | 120 | 768 | — | — | — |
GPU計算節點 | 12 | 480 | 3072 | — | — | 48 x Cambricon MLU100 GPU Deep Learning Card |
存儲節點 | 1 | — | — | 28.8 | 11.2 | — |
GPU集群 (提供教授服務器托管服務)
節點 | 數量 | 計算核心數 | 內存(GB) | 機械硬盤(TB) | 固態硬盤(TB) | GPU |
主節點 | 1 | 32 | 128 | 1.2 | — | — |
登錄節點 | 2 | 64 | 256 | 2.4 | — | — |
GPU計算節點 | 12 | 608 | 3152 | 30 | 19.4 |
50 x GeForce RTX 2080 Ti |
存儲節點 | — | — | — | 100 | 11.2 | — |
登入和使用資訊:SSH Client and Slurm 排程
聯絡我們
- 對於HCS Service, 請聯絡院系技術人員
- 對於 typical cluster operations ,請參考 http://services.sicc.um.edu.mo:8443/explore/repos (校園網絡訪問)
如果需要協助,IOTSC會盡可能提供足夠的技術支持。
關於研究成果中的致謝
Please acknowledge the support of Super Intelligent Computing Center (SICC) in your research report, journal, or publications. This information is very important for us to acquire funding for new resources. The author(s) of the paper can word the acknowledgement, and below is the recommend acknowledgement for publications:
Acknowledgement |
THIS WORK WAS PERFORMED IN PART AT SICC WHICH IS SUPPORTED BY SKL-IOTSC, UNIVERSITY OF MACAU. |