YJMOD 영재컴퓨터 RTX 2080 Ti x4 커스텀 수랭 PC RTX 2080 Ti 4개를 탑재한 딥러닝/연산/렌더링 시스템 안녕하세요. 퀘이사존벤치입니다. 하드웨어 관련 테스트나 리뷰를 여러 해 동안 지속하다보면, 자연스럽게 본인만의 철학이 생겨나기 마련이고 한편으로는 편견이 자리잡기도 합니다. 물론, 시장에는 항상 새로운 제품들이 멈추지 않고 등장합니다. 늘 그래왔듯이 말이죠. 하지만 그래픽카드나 CPU의 경우 반도체의 태생적 한계를 벗어나기 힘들기 때문에, 공정미세화와 아키텍처 개선 그리고 코어 개수와 클록 주파수를 향상시키는 방식으로 성능 발전의 역사가 반복됩니다. 따라서 이를 바라보는 제 시선이나 관점도 매너리즘에 빠지는 경우가 있습니다. 한 마디로 재미와 흥미를 느낄만한 자극이 점점 떨어지는 것이죠. 그런 저를 그나마 자극시킬 수 있는 것들이라면, 플랫폼 관점에서의 새로운 시도 혹은 독특한 철학이 반영된 제품들입니다. ▲ 본체만으로 책상을 꽉 채우는 영재컴퓨터 시스템 그런 와중에 오늘 소개할 딥러닝/연산 용도의 영재컴퓨터 시스템이 절 자극시키는 데 성공했습니다. 실로 일반 사용자용 PC 컴포넌트 시장에서 최고의 성능이라 할 수 있는 부품들은 속된 말로 다 때려 박은 것도 모자라, 하나는 공랭으로 다른 하나는 커스텀 수랭으로 꾸몄다는 흥미로운 차별성을 부여했습니다. 즉 CPU와 그래픽카드, 마더보드와 메모리, 파워서플라이와 케이스 등 모든 부품이 동일하지만, 시스템 성능을 결정짓는 핵심 요소인 CPU와 GPU 쿨링 방식을 수랭 버전과 공랭 버전으로 꾸밈으로써 작게는 두 시스템에 대한 차이를, 크게는 쿨링 시스템 차이는 근본적인 의미에서 어떤 변화가 생기는지 살펴볼 수 있는 시간을 가질 수 있었습니다. 전반적인 시스템 사양은?
▲ 동일한 사양에 쿨링 설루션만 달리 구성(좌: 커스텀 수랭, 우: 공랭) ※ 커스텀 수랭 버전의 경우 그래픽카드 팩토리 오버클록 적용 시스템 사양부터 살펴보도록 하겠습니다. 컴퓨터의 두뇌라 할 수 있는 CPU부터 짚어보죠. 작년 말에 출시된 인텔 코어 X-시리즈 프로세서 중 최상위 성능을 가진 i9-9980XE를 탑재했습니다. 18 코어 36 스레드에 24.75 MB의 L3 캐시 등 데스크톱 용도로 출시된 인텔 CPU 중에서는 가장 화려한 스펙을 자랑하는 제품입니다. 이에 대응하는 마더보드는 ASUS WS X299 SAGE를 선정했는데요. 딥러닝/서버/워크스테이션 등의 용도로 태어난 모델이기도 하고, 그래픽카드 4장을 연결하기 위해서는 이상적인 PCIe 3.0 슬롯 구성을 갖췄기 때문에 납득이 됩니다. ▲ 인텔 코어 i9-9980XE와 ASUS WS X299 SAGE 조합 메모리 구성도 다소 충격적인데요. 스펙 자체는 X299 플랫폼의 레퍼런스에 해당하는 2,666 MHz이기 때문에 놀라울 것이 없지만, 16GB 메모리가 무려 8개나 꽂혀 총 128GB를 자랑합니다. 보통 적게는 8GB 구성, 많게는 16/32GB 구성이 대다수를 차지하기 때문에, 이런 용량의 메모리 구성은 신선한 충격입니다. 이 역시 시스템의 용도를 생각해보면 납득이 가는 구성입니다. 고용량의 시스템 메모리는 한 번에 많은 데이터를 작업 공간에 상주시킬 수 있기 때문에, 작업자에게는 좀 더 쾌적한 작업 환경을 마련해주는 데 도움을 주기 때문이죠. 16GB 단일 메모리가 10만 원이 넘어가는 현 시세를 생각해보면 CPU+마더보드+메모리 구성만 해도 이미 중고차 가격 수준일 겁니다. 어마어마하군요.
▲ 8개 슬롯에 꽉 들어찬 16GB 메모리(일명 풀뱅)는 컴덕후의 마음을 편안하게 해준다 다음은 시스템 용도 상 가장 핵심 부품이자 성능 발휘에 가장 중요한 그래픽카드입니다. 엔비디아 튜링 GPU 아키텍처 기반의 게이밍 그래픽카드 중 가장 높은 성능을 가진 RTX 2080 Ti로 구성했습니다. 해당 그래픽카드는 튜링 GPU 중 빅칩에 해당하는 TU102 GPU와 GDDR6 11GB 메모리를 탑재하였고, 전용 텐서 코어(Tensor cores)가 포함되어 있기 때문에 딥러닝 연산 용도로도 각광을 받고 있죠. 특히 팩토리 오버클록과 전용 워터블록이 갖춰진 ‘GIGABYTE AORUS Xtreme 지포스 RTX 2080 Ti D6 11GB 워터블럭’이 탑재되어 쿨링 성능과 외형 면에서도 빠지지 않도록 구성했습니다. 커스텀 수랭 시스템에 잘 어울리는 모델 선정입니다.
▲ RTX 2080 Ti 4개 모두 커스텀 수랭으로 꾸며졌다 팩토리 오버클록의 경우 스펙상 부스트 클록이 1,770 MHz인데요. 해당 수치는 레퍼런스 클록(1,545 MHz)과 비교 시 14.6%, 파운더스 에디션 클록(1,635 MHz)과 비교 시 8.3% 높은 것으로 분명한 차이가 있습니다. 게다가 수랭 쿨링의 이점으로 낮은 GPU 온도는 더 높은 부스트 클록을 달성할 수 있게 만들어주는 전제 조건이기 때문에, 그래픽카드의 성능 발휘에 있어서는 이상적인 세팅입니다.
▲ 저장매체는 14TB HDD 4개와 NVMe SSD 1TB로 구성 저장매체 구성도 상당합니다. 삼성전자의 970 PRO NVMe M.2 2280 1TB SSD를 필두로 시게이트 14TB HDD 4개를 장착하여 총 57(56+1)TB의 저장 공간을 확보했습니다. 연산을 위한 핵심 부품 뿐만 아니라 저장매체 구성까지 혀를 내두를 정도의 구성을 계속해서 이어가고 있습니다. 이러한 강력한 부품들에게 전력을 공급해야하는 파워서플라이는 쿨러마스터의 MasterWatt 1500W 80PLUS TITANIUM을 선정했군요. 마지막으로 케이스는 커세어의 슈퍼 타워 케이스, OBSIDIAN 1000D입니다. 시스템을 이루고 있는 부품 하나하나가 모두 최고급형 제품으로만 구성되어 있는 영재컴퓨터의 RTX 2080 Ti x4 딥러닝/연산/렌더링 시스템. 본격적인 내용으로 넘어가보도록 하겠습니다. 커스텀 수랭과 공랭 버전의 차이는?
▲ 좌: 공랭 시스템, 우: 커스텀 수랭 시스템 수랭 시스템의 경우 CPU는 EK-Velocity 워터블록, 그래픽카드는 AORUS Xtreme 워터블록을 씌워 4열 라디에이터 2개로 연결되는 커스텀 수랭 구성입니다. 특히 라디에이터의 위용이 상당한데요. EK-CoolStream XE 480 모델로 두께만 해도 무려 60T입니다. 해당 모델을 2개로 구성하여 120mm 쿨링팬은 총 8개가 장착됩니다.
▲ 60T 두께의 4열 EK-CoolStream XE 480 라디에이터 듀얼 구성 다음은 공랭 시스템인데요. 공랭이라고 해서 무시할 만한 수준은 아닙니다. 일명 농협 쿨러로 불리는 NH-D15를 탑재했습니다 히트싱크의 물리적 크기에서 비롯되는 위압감이 상당합니다. 지금이야 일체형 수랭 쿨러/커스텀 수랭 쿨러가 많이 대중화되었지만, 2010년 초반까지만 하더라도 CPU 쿨러는 이렇게 히트싱크가 크고 아름다운 모델들이 인기가 많았죠. 물론, 지금도 취향에 따라서는 사용자의 선택을 받기도 합니다. 다만, 그 입지가 줄어들었을 뿐이겠죠. 암튼, 이 정도 수준의 공랭 쿨러라면 i9-9980XE도 문제없이 식혀줄 것으로 예상됩니다.
▲ 뛰어난 성능의 공랭 쿨러, NOCTUA(녹투아) NH-D15 다음은 그래픽카드입니다. ASUS의 블로워팬 타입 RTX 2080 Ti를 장착했는데요. 아니 엄청나게 값비싼 시스템인데, 그래픽카드 중에서도 가장 기본형 제품을 선택한 이유가 있냐고 되물을 수 있을 것입니다. 하지만, 이렇게 여러 장의 그래픽카드를 장착할 때는 화려한 듀얼/트리플팬 쿨링 시스템 제품보다 블로워팬 타입의 쿨링이 오히려 더 적합한 구성입니다.
▲ 다중 그래픽카드를 공랭으로 구성한다면 블로워팬이 정답 여기에 대한 설명은 얼마 전 진행했던 SLI 벤치마크에서도 확인할 수 있는데요. 단일 그래픽카드 상황에서는 듀얼팬 쿨러를 갖춘 RTX 2080 Ti FE가 GTX 1080 Ti FE보다 더 낮은 GPU 온도를 보여줍니다. 그러나 그래픽카드를 2개 장착하게 되면 상황은 완전히 달라집니다. RTX 2080 Ti FE의 경우 상단 그래픽카드의 GPU 온도와 RPM이 치솟는 문제점이 발견되었죠. 이는 흡기 영역의 공기 온도와 배기 방식의 구조적 특징을 핵심 원인으로 꼽을 수 있습니다.
▲ 다닥다닥 붙어 있을 땐 듀얼/트리플팬 구성의 플라워형 쿨러보다 블로워팬이 이상적 이렇게 한정된 공간에서 뜨거운 열을 발생하는 그래픽카드가 여러 개일 경우 공기를 빨아들여 뜨거워진 공기를 외부로 배출하는 블로워팬 타입이 외부 환경에 의한 쿨링 영향을 덜 받습니다. 따라서 당시 SLI 벤치에서는 RTX 2080 Ti FE SLI보다 GTX 1080 Ti FE SLI가 상대적으로 안정적인 모습을 보여줬던 것입니다. 영재컴퓨터는 이러한 공기역학적 특징을 잘 고려하여 블로워팬으로 선택한 것이겠죠. 그런데, 4개의 그래픽카드가 과연 필요한 걸까? 결론부터 말씀드리면 "예 필요합니다." 얼마전 퀘이사존에서 진행한 SLI 게이밍 벤치에서도 정리된 내용이지만, 게임 분야에 한정하면 다중 그래픽카드 구성이 여러모로 좋지 않은 효율을 보여주는 것은 맞습니다. 하지만, 병렬 GPU/그래픽카드를 지원하는 연산/작업 분야로 시선을 옮겨보면 완전히 다른 결론이 나오죠. 별도의 SLI 설정을 하지 않아도 PCIe 슬롯에 그래픽카드만 장착되어 있으면, 상당히 높은 효율로 그래픽카드의 GPU 자원을 활용할 수 있기 때문입니다. 따라서 그래픽카드를 꼽으면 개수대로 성능을 쭉쭉 뽑아줍니다. 이러한 병렬 방식의 연산은 작업자에게 실질적인 이점을 가져다주기 때문에, CPU나 GPU를 다중으로 구성하여 작업 생산성을 최대치로 끌어올리는 것이 굉장히 중요합니다. 이런 맥락에서 영재컴퓨터 RTX 2080 Ti x4 시스템 역시 앞서 언급한 제품의 특수성과 사용 목적에 맞게 구성된 시스템입니다. 자세한 내용을 살펴보기 전에, 잠시 RTX 2080 Ti에 탑재된 튜링 아키텍처(Turing Architecture) GPU의 개요 및 특징을 알 수 있는 내용을 담아보았습니다. 과거 칼럼을 통해 내용을 이미 숙지하고 계신 분들은 본 내용은 넘어가주셔도 좋겠네요. 지포스 RTX 그래픽카드는 파스칼 아키텍처(Pascal Architecture) 기반의 지포스 GTX 10 시리즈에 비해 크고 작은 변화를 겪게 되면서, 게임용 그래픽카드로써의 가치 외에도 딥러닝(Deep Learning), GPGPU(General-Purpose computing on GPU)로 대표되는 범용 연산, 3D 렌더링 등 전문 작업 영역에서의 가치도 조명을 받고 있습니다. 일반적인 게이밍에 가장 중요한 FP32 연산을 담당하는 CUDA 코어 외에도 딥러닝을 위한 텐서(Tensor) 코어, 레이트레이싱(Ray Tracing)을 위한 RT 코어 등을 함께 갖췄기 때문이죠. 튜링의 SM 아키텍처 TURING STREAMING MULTIPROCESSOR ARCHITECTURE 튜링(Turing) 아키텍처는 볼타(Volta)의 GV100 SM 아키텍처에 도입된 많은 기능을 통합하여 새로운 SM 설계를 갖췄습니다. TPC 당 2개의 SM이 포함되며, 각 SM에는 총 64개의 FP32 코어와 INT32 코어가 존재합니다. 이에 비해 파스칼 GP100 시리즈 GPU는 TPC 당 1개의 SM과 각 SM에는 128개의 FP32 코어로 큰 차이를 보입니다. 튜링 SM은 FP32와 INT32 작업을 동시에 수행할 수 있으며, 볼타 GV100 GPU와 유사한 형태의 독립 스레드 스케줄링을 지원합니다.
▲ 튜링 SM 아키텍처(Turing SM Architecture) 튜링 SM은 4개의 프로세싱 블록으로 분할되며, 각 블록은 16개의 FP32 코어, 16개의 INT32 코어, 2개의 텐서 코어, 1개의 워프 스케줄러(Warp Scheduler)과 디스패치 유닛(Dispatch)으로 구성됩니다. 각 블록에는 새로운 L0 명령어 캐시와 64 KB 레지스터 파일이 포함됩니다. 4개의 프로세싱 블록은 96 KB L1 데이터 캐시/공유 메모리(Shared Memory)를 공유하게 됩니다. 기존 방식의 그래픽 워크로드는 96 KB L1/공유 메모리를 64 KB의 전용 그래픽 셰이더 RAM과 32 KB의 텍스처 캐시 및 레지스터 파일 유출 영역으로 분할합니다. 컴퓨트(Compute) 워크로드는 96 KB를 32 KB 공유 메모리와 64 KB L1 캐시 또는 64 KB 공유 메모리와 32 KB L1 캐시로 나눌 수 있죠. 이와 관련하여 FP32 코어와 INT32 코어의 비율이 1:1로 구성된 튜링 아키텍처의 특징은 본 칼럼에서 소개하는 AIDA64 GPGPU 벤치마크에서 성능으로서 검증이 가능합니다. 파스칼 아키텍처와 비교하여 INT32 연산 성능은 큰 폭으로 차이나기 때문입니다. 튜링 텐서 코어 | TURING TENSOR CORES
튜링 GPU에는 볼타 GV100 GPU에 처음 도입된 텐서 코어의 향상된 버전이 포함되어 있습니다. 튜링의 텐서 코어 설계는 인퍼런싱(Inferencing) 워크로드에 INT8과 INT4 정밀 모드가 추가되었습니다. 반면, FP16은 높은 정밀도를 요구하는 워크로드에 사용되는 것이고요. 게이밍용 그래픽카드로서는 최초로 GPU에 텐서 코어를 도입함으로써, 게임 애플리케이션에 대한 실시간 딥러닝을 적용할 수 있게 되었습니다. 이를 통해 그래픽, 렌더링, 다양한 유형의 애플리케이션 성능을 향상시키는 엔비디아 NGX 신경 서비스(Neural Service)의 AI 기능을 가속화합니다.
튜링 텐서 코어는 신경망 트레이닝(Training)/인퍼런싱(Inferencing)과 행렬(매트릭스, Matrix) 곱셈 연산을 가속화합니다. 딥러닝 연산에서 핵심이자 기본이 되는 연산 방식이기도 하죠. 특히 텐서 코어는 인퍼런싱에 탁월한 성능을 발휘하는데, 주어진 입력을 기반으로 트레이닝된 DNN(심층 신경망)을 거쳐 유용하고 관련성 있는 정보를 뽑아냅니다. 인퍼런싱 작업 결과의 대표적인 예로는 페이스북(facebook) 사진 속 친구들의 얼굴 식별, 자율주행자동차의 보행자/위험요소 식별과 분류, 실시간 번역, SNS의 사용자 맞춤형 추천 시스템 등을 꼽을 수 있습니다. ▲ 튜링(Turing) 아키텍처 기반의 RTX 2080 Ti 4개가 장착된 영재컴퓨터 커스텀 수랭 시스템 다시 본론으로 돌아와, 오늘 소개할 영재컴퓨터 시스템이 앞서 설명한 튜링 GPU 아키텍처 기반의 RTX 그래픽카드 특징과 직접적인 연관이 있습니다. TITAN RTX를 제외한 RTX 지포스 그래픽카드 중 가장 높은 성능을 지닌 지포스 RTX 2080 Ti를 무려 4개(튜링 TU102 GPU x4)나 탑재했기 때문이죠. RTX 2080 Ti의 시장 TU102 GPU CUDA 코어가 4,352개니까 7개면 무려 1만 7천 개 이상의 CUDA 코어(17,408 CUDA)를 확보할 수 있게 됩니다. 파스칼 아키텍처 GPU에 비해 CUDA 코어 개당 연산 효율도 증가했기 때문에, 이러한 CUDA 코어는 병렬 방식의 GPU 연산 능력을 잘 활용할 수 있는 애플리케이션에서 최고의 성능을 보여줄 수 있을 것으로 기대됩니다. 특히 영재컴퓨터는 게임 용도의 개인용 PC 외에도 자사의 기술 노하우와 경험을 살린 전문 작업 용도의 시스템 설계와 구축을 꾸준히 이어오고 있습니다. 이번 제품에서도 데스크톱 기반의 부품들을 아낌 없이 투자한 만큼 좋은 성능으로 회답해줄 것이라 기대됩니다. YJMOD 영재컴퓨터 RTX 2080 Ti x4 시스템 사양 |