-
[2023 컴퓨텍스] 엔비디아 GH200을 보며이슈&관심사 2023. 6. 7. 05:48
0. 컴퓨텍스
"매년 열리는 세계에서 2번째로 큰 ICT 전시회"
대만에는 우리가 흔히 아는 기가바이트, ASUS, ACER 등 많은 기업이 있다.
우리 나라에서는 네이버, LG전자, 삼성 등이 참가하는 것으로 알고 있다.
ML에 관심이 많은 우리는 NVIDIA와 AMD의 프리뷰를 구경하기 위해 간간히 챙겨 보고 있었다.
이번 2023 컴퓨텍스에서는 NVIDIA가 기조연설을 맡았는데, 그 내용이 굉장해서 정리 해보았다.
1. NVIDIA Hopper (호퍼)
이번 기조연설에서 공개한 내용으로 NVIDIA Hopper 아키텍처를 소개했다.
Hopper는 엑사스케일 고성능 컴퓨팅(HPC), AI, 데이터센터 등에 사용가능한 새로운 아키텍처로 소개 됐다.
기존 Hopper GPGPU는 GH100으로 2022년 3월 발표된 데이터센터 전용 GPU 였는데, A100의 상위 등급 모델이다.
올해 초 4월 (2023년 4월) ChatGPT로 인해 언어모델 개발 수요가 증가하면서, 비트코인으로 인해 GPGPU가격이 폭등했던 때 처럼 가격이 폭등하기 시작했다. (살벌한 가격.. 1만 달러 이상 올랐다는 풍문이 있었다.)
2023년 5월 말인 이번 2023 컴퓨텍스에서는 GH100의 후속 모델인 GH200 모델을 공개했는데, 이 Hopper 칩이 256개 탑제된 괴물 같은 모델이 새롭게 공개되었다.
2. NVIDIA Grace CPU (그레이스 CPU)
주인장 기억으론 작년(2022년 중반- 5-6월 쯤?) 처음 발표된 것으로 기억한다.
ARM 기반으로 슈퍼 컴퓨터에 사용되는 CPU를 발표한 것으로 기억하는데
이때 부터 NVLink를 통해 AI 관련 혹은 서버 급에 사용될 모델에 대해 이야기가 나왔던 것으로 기억한다.
3. Grace Hopper super chip
1번과 2번의 Hopper + Grace 아키텍처를 결합한 칩으로 우리가 잘 알고 있는 Apple의 M1, M2와 같이 SOC(System on a Chip)이다.
Apple도 x86 인텔 cpu를 사용했을 때(CPU와 GPU, RAM이 물리적으로 분리 됨/거리가 존재)보다 SOC 방식의 실리콘 칩으로 변경하여, CPU와 GPU, RAM의 물리적 거리를 줄여 하나의 칩으로 만들었다.
SoC로 설계할 경우, 데이터 통신의 대역폭이 넓어지며, 데이터 전송의 속도가 증가하게 되는 장점을 가지고 있다.
NVIDIA의 Grace Hopper Super Chip은 여기에 NVLink라는 기술을 추가로 적용하여, 더욱 속도를 높였다.
구체적인 성능 향상 지표는 NVIDIA의 Grace Hopper Superchup Architecture Whitepaper를 참고하였다.
해당 그래프 수치 상으로 X86과 Hopper를 사용한 조합 대비 HGX Grace Hopper는 4배 빨라졌다.
이런 Grace Hopper SuperChip의 성능은 다음과 같다.
72core, 512GB LPDDR5X Memory, 96GB GPU Memory, 1000W TDP
TDP 대비 정신 나간 스펙이다.
Grace CPU는 500TDP 였던걸 생각하면, 더욱 업그레이드 된 것을 알 수 있다.
4. 머야 어떻게 한거야?
본 챕터가 핵심이다. 대체 어떻게 이게 가능한건가.
NVIDIA Grace Hopper SuperChip Whitepaper에서 가져온 그림이다.
상단 그림은 기존 방식의 GPU + CPU가 분리된 환경
하단 그림은 CPU+GPU를 묶기 위해 NVLink C2C를 사용한 환경이다.
기존 방식은 PCI-E를 통해 CPU와 GPU간 데이터를 전송하기 때문에 대역폭에 비해 많은 데이터가 이동하려 하면 병목 현상이 발생하게 된다.
하지만, SoC 방식의 하단 그림에서는 PCI-E를 통해 이동하지 않고 하나의 칩을 통해 데이터가 전송됨으로 PCI-E 대비 전송속도와 대역폭 모두 우수한 성능을 지니게 된다.
https://developer.nvidia.com/blog/announcing-nvidia-dgx-gh200-first-100-terabyte-gpu-memory-system/
위 그림이 앞서 말한 Grace Hopper SuperChip을 256개 묶어 DGX GH200 슈퍼 컴퓨터이다.
무슨 대역폭이 230TB/s 이고, 연산력이 1 EFLOPS(엑사플롭스) 이다.
참고로 1엑사플롭스는 초당 100경 회의 계산을 할 수 있다는 뜻이다.
5. 정리
학부 저학년 때 배웠던 무어의 법칙이 생각난다.
무어의 법칙 : 반도체는 1-2년에 2배씩 성능이 향상된다. (반도체에 집적하는 트랜지스터 수는 1-2년 마다 2배로 증가한다.)
슈퍼 무어의 법칙 : 2년마다 2배하지만, 저 법칙은 과거의 이야기가 되었다.
이유는 기술적 한계 (ex. 발열, 반도체 소재 등) 이유로 2년간 증가율은 1.1x 배 까지 떨어지게 되었다.
최근 (최근은 아니고 근 10여년), 엔비디아는 무어의 법칙 이상의 성능 향상을 보여주고 있다.
근 3년, 딥러닝, 머신러닝과 관련된 하드웨어의 관심 속에서 엔비디아가 압도적인 성능과 좋은 모습을 보이고 있다.
앞으로의 행보와 AI와 관련돤 하드웨어 시장의 발전이 기대된다.