리뷰 - 퀘이사존 공식 IT/하드웨어 리뷰

렌더링 괴물, YJMOD 영재컴퓨터 RTX 2080 x7 워크스테이션

QM벤치

63 6553 32 2018.12.24 20:05

<div class="apms-autowrap"><div class="apms-autosize"><iframe width="1100" height="619" src="https://www.youtube.com/embed/Z1JzsqgBu3Q" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen=""></iframe></div></div><table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> ▲ YJMOD 영재컴퓨터 RTX 2080 x7 워크스테이션 영상(유튜브 영상 화질: 3840x2160/4K 해상도 지원)    </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___2054878321.jpg" title="104898358bc0558c4859c3f0b28ff1f4_1545638939_0095.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> YJMOD 영재컴퓨터 RTX 2080 x7 워크스테이션RTX 2080 7개를 탑재한 딥러닝/연산/렌더링 시스템  안녕하세요. 퀘이사존벤치입니다. 퀘이사존을 통해 늘 괴물 시스템을 선보이던 영재컴퓨터에서 이번에는 더욱 대단한 시스템을 퀘이사존 사무실에 투척했습니다. 대체 뭐가 대단하냐고요? 무려 100만 원 이상의 몸값을 가진 지포스 RTX 2080 8GB 그래픽카드를 7장 탑재하고, CPU는 제온 프로세서(Xeon Processor) E5-2630 v4를 2개 탑재하는 듀얼 CPU, 1500W 듀얼 파워서플라이 탑재 등 단순 부품만 나열해도 구경하기 힘든 구성을 보여주기 때문입니다. 특히 성능 부문에서는 CPU와 그래픽카드 구성만 봐도 충분히 짐작 가능하실 겁니다. 이건 예사로운 물건이 아니라는 것을요. 즉 게임용이 아닌 딥러닝/연산/렌더링 분야에 이용되는 워크스테이션 시스템입니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___421754690.jpg" title="104898358bc0558c4859c3f0b28ff1f4_1545639582_0962.jpg" style="max-width:100%; height:auto;"> 보통 게임만 즐겨 하시는 분들은 그래픽카드를 7장이나 달면 애플리케이션에서 제대로 지원하는지를 궁금해하실 수 있는데요. 일반적으로 3D 게임은 2-Way SLI만 지원해도 다행이긴 합니다. 더군다나 최근에 와서는 멀티 GPU 기술에 대한 지원이 점점 약해지고 있기 때문에, 3D 게이밍에 있어 복수 그래픽카드 구성은 실속과 효율 면에서 많이 떨어집니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___1867148142.png" title="9f965e55f270b48dd5d18635c646208a_1545389889_2416.png" style="max-width:100%; height:auto;"> 하지만 전문 작업 분야는 다릅니다. 별도의 SLI 설정을 하지 않아도 PCIe 슬롯에 그래픽카드만 장착되어 있으면, 상당히 높은 효율로 그래픽카드의 GPU 자원을 활용할 수 있기 때문이죠. 따라서 그래픽카드를 꼽으면 개수대로 성능을 쭉쭉 뽑아주는 경우가 흔합니다. 이러한 병렬 방식의 연산은 작업자에게 실질적인 이점을 가져다주기 때문에, 워크스테이션 시스템은 CPU나 GPU를 다중으로 구성하여 작업 생산성을 최대치로 끌어올리는 것에 주안점을 둡니다. YJMOD 영재컴퓨터 RTX 2080 x7 워크스테이션 역시 앞서 언급한 워크스테이션의 특수성과 사용 목적에 맞게 구성된 시스템입니다. 자세한 내용을 살펴보기 전에, 잠시 RTX 2080에 탑재된 튜링 아키텍처(Turing Architecture) GPU의 개요 및 특징을 알 수 있는 내용을 담아보았습니다. 과거 칼럼을 통해 내용을 이미 숙지하고 계신 분들은 쿨하게 넘기시는 걸 추천합니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___98371236.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540405415_151.jpg" style="max-width: 100%; height: auto;"> 지포스 RTX 그래픽카드는 파스칼 아키텍처(Pascal Architecture) 기반의 지포스 GTX 10 시리즈에 비해 크고 작은 변화를 겪게 되면서, 게임용 그래픽카드로써의 가치 외에도 딥러닝(Deep Learning), GPGPU(General-Purpose computing on GPU)로 대표되는 범용 연산, 3D 렌더링 등 전문 작업 영역에서의 가치도 조명을 받고 있습니다. 일반적인 게이밍에 가장 중요한 FP32 연산을 담당하는 CUDA 코어 외에도 딥러닝을 위한 텐서(Tensor) 코어, 레이트레이싱(Ray Tracing)을 위한 RT 코어 등을 함께 갖췄기 때문이죠.    튜링의 SM 아키텍처 TURING STREAMING MULTIPROCESSOR ARCHITECTURE  튜링(Turing) 아키텍처는 볼타(Volta)의 GV100 SM 아키텍처에 도입된 많은 기능을 통합하여 새로운 SM 설계를 갖췄습니다. TPC 당 2개의 SM이 포함되며, 각 SM에는 총 64개의 FP32 코어와 INT32 코어가 존재합니다. 이에 비해 파스칼 GP100 시리즈 GPU는 TPC 당 1개의 SM과 각 SM에는 128개의 FP32 코어로 큰 차이를 보입니다. 튜링 SM은 FP32와 INT32 작업을 동시에 수행할 수 있으며, 볼타 GV100 GPU와 유사한 형태의 독립 스레드 스케줄링을 지원합니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___912441443.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540406784_1742.jpg" style="max-width:100%; height:auto;"> ▲ 튜링 SM 아키텍처(Turing SM Architecture) 튜링 SM은 4개의 프로세싱 블록으로 분할되며, 각 블록은 16개의 FP32 코어, 16개의 INT32 코어, 2개의 텐서 코어, 1개의 워프 스케줄러(Warp Scheduler)과 디스패치 유닛(Dispatch)으로 구성됩니다. 각 블록에는 새로운 L0 명령어 캐시와 64 KB 레지스터 파일이 포함됩니다. 4개의 프로세싱 블록은 96 KB L1 데이터 캐시/공유 메모리(Shared Memory)를 공유하게 됩니다. 기존 방식의 그래픽 워크로드는 96 KB L1/공유 메모리를 64 KB의 전용 그래픽 셰이더 RAM과 32 KB의 텍스처 캐시 및 레지스터 파일 유출 영역으로 분할합니다. 컴퓨트(Compute) 워크로드는 96 KB를 32 KB 공유 메모리와 64 KB L1 캐시 또는 64 KB 공유 메모리와 32 KB L1 캐시로 나눌 수 있죠. 이와 관련하여 FP32 코어와 INT32 코어의 비율이 1:1로 구성된 튜링 아키텍처의 특징은 본 칼럼의 하단에서 소개하는 AIDA64 GPGPU 벤치마크에서 성능으로서 검증이 가능합니다. 파스칼 아키텍처와 비교하여 INT32 연산 성능은 큰 폭으로 차이나기 때문입니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___897815194.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540406844_7542.jpg" style="max-width:100%; height:auto;"> 현대의 셰이더 워크로드 부하는 일반적으로 FADD 또는 FMAD와 같은 FP 산술 명령이 혼합되어 있는 형태이며 여기에는 데이터 주소 지정 및 가져오기를 위한 정수 추가, 결과 처리를 위한 부동소수점 비교 또는 최솟값/최댓값 등의 간단한 명령어로 구성됩니다. 위 이미지와 같이 실제로 수많은 워크로드를 프로파일링 해보면 100개의 부동소수점(FP) 연산에 대해 평균 36개의 정수(INT) 연산이 일어나고 있습니다. 이전의 셰이더 아키텍처는 이러한 비FP 산술 명령 중 하나가 실행되면, 부동소수점 연산을 위한 데이터 경로가 유휴 상태로 머무르게 됩니다.(즉 비FP 산술 명령이 떨어지면 손을 놓아버리는 상황) 하지만, 튜링 GPU는 모든 CUDA에 두 번째의 병렬 실행 단위를 추가하여 이러한 연산(FP+비FP/INT)을 동시에 실행합니다.    튜링 텐서 코어 | TURING TENSOR CORES <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___7915907.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540406920_3714.jpg" style="max-width:100%; height:auto;"> 튜링 GPU에는 볼타 GV100 GPU에 처음 도입된 텐서 코어의 향상된 버전이 포함되어 있습니다. 튜링의 텐서 코어 설계는 인퍼런싱(Inferencing) 워크로드에 INT8과 INT4 정밀 모드가 추가되었습니다. 반면, FP16은 높은 정밀도를 요구하는 워크로드에 사용되는 것이고요. 게이밍용 그래픽카드로서는 최초로 GPU에 텐서 코어를 도입함으로써, 게임 애플리케이션에 대한 실시간 딥러닝을 적용할 수 있게 되었습니다. 이를 통해 그래픽, 렌더링, 다양한 유형의 애플리케이션 성능을 향상시키는 엔비디아 NGX 신경 서비스(Neural Service)의 AI 기능을 가속화합니다. NGX AI 기능의 대표적인 예로는 딥러닝 슈퍼샘플링(DLSS), AI InPainting, AI Super Rez, AI Slow-Mo 등이 있습니다. DLSS를 통한 강력한 성능은 퀘이사존 벤치마크에서도 확인한 바 있지만, 문제는 네이티브 해상도와 비교했을 때의 품질 문제가 과제로 남아있는 상황입니다. 최소한 동등하거나 그 이상의 화질을 보장해주어야 박수 받을 수 있는 기술이지만, 아직까지는 충분한 모습을 답해주지 못하고 있기 때문입니다.(물론, AI 특성상 인퍼런싱/트레이닝 연산이 반복될수록 품질과 성능은 개선될 여지가 있습니다)  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___1955498381.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540406952_6873.jpg" style="max-width:100%; height:auto;"> 튜링 텐서 코어는 신경망 트레이닝(Training)/인퍼런싱(Inferencing)과 행렬(매트릭스, Matrix) 곱셈 연산을 가속화합니다. 딥러닝 연산에서 핵심이자 기본이 되는 연산 방식이기도 하죠. 특히 텐서 코어는 인퍼런싱에 탁월한 성능을 발휘하는데, 주어진 입력을 기반으로 트레이닝된 DNN(심층 신경망)을 거쳐 유용하고 관련성 있는 정보를 뽑아냅니다. 인퍼런싱 작업 결과의 대표적인 예로는 페이스북(facebook) 사진 속 친구들의 얼굴 식별, 자율주행자동차의 보행자/위험요소 식별과 분류, 실시간 번역, SNS의 사용자 맞춤형 추천 시스템 등을 꼽을 수 있습니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___217912286.jpg" title="104898358bc0558c4859c3f0b28ff1f4_1545639072_929.jpg" style="max-width:100%; height:auto;"> ▲ 튜링(Turing) 아키텍처 기반의 RTX 2080 7개가 장착된 영재컴퓨터 워크스테이션 다시 본론으로 돌아오면, 오늘 소개할 영재컴퓨터 시스템이 앞서 설명한 튜링 GPU 아키텍처 기반의 RTX 그래픽카드 특징과 직접적인 연관이 있습니다. 엔비디아 지포스 RTX 2080을 무려 7개(튜링 TU104 GPU x7) 장착한 워크스테이션이기 때문이죠. RTX 2080에 쓰인 TU104 GPU의 CUDA 코어가 2,944개니까 7개면 무려 2만 개 이상의 CUDA 코어(20,608 CUDA)를 확보할 수 있게 됩니다. 파스칼 아키텍처 GPU에 비해 CUDA 코어 개당 연산 효율도 증가했기 때문에, 이러한 CUDA 코어는 병렬 방식의 GPU 연산 능력을 잘 활용할 수 있는 애플리케이션에서 최고의 성능을 보여줄 수 있을 것으로 기대됩니다. 특히 그동안의 영재컴퓨터는 게임/작업 용도의 개인용 PC 외에도 자사의 기술 노하우와 경험을 살린 전문 작업 용도의 시스템 설계와 구축을 이어왔기 때문에 더 기대가 되는 부분이기도 하죠. 과거 RTX 2080 x4 시스템에서도 강력한 성능을 증명한 바 있었고요. 이번 제품도 이변이 없다면 엄청난 성능을 보여줄 것으로 예상됩니다. 먼저 영재컴퓨터의 시스템 사양을 살펴보고 바로 성능 테스트로 넘어가도록 하겠습니다.        YJMOD 영재컴퓨터 RTX 2080 x7 시스템 사양  </td></tr></tbody></table><table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___596648247.jpg" title="104898358bc0558c4859c3f0b28ff1f4_1545639122_9747.jpg" style="max-width:100%; height:auto;"><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___385931620.jpg" title="9f965e55f270b48dd5d18635c646208a_1545384397_6296.jpg" style="max-width:100%; height:auto;"> 듀얼 CPU, 7개의 RTX 2080, 듀얼 파워서플라이, 슈퍼 타워 케이스 구성부터 범상치 않은 모습입니다. 제온 프로세서가 2개 탑재되어 있고, 7개의 RTX 2080을 감당하기 위해 1500W 파워를 듀얼로 구성했습니다. 즉 3000W 출력이 가능하다는 뜻이죠.(실제 소비전력은 2000W 수준을 넘어가지 않습니다) 여기에 더해 무지막지한 부품들을 품기 위한 초대형 케이스, CORSAIR OBSIDIAN 1000D가 투입되었습니다. 또한, 앞서 누차 언급한 내용과 같이 본 시스템은 게임용 PC가 아닙니다. 따라서 게임 테스트는 제외하도록 하고, 워크스테이션으로써의 성능을 측정하고 검증하는 데 집중하도록 하겠습니다. 여기에는 AIDA64의 GPGPU 테스트와, 조금 더 세분화된 분야를 지원하는 SiSoft SANDRA 벤치마크, OpenCL 성능을 측정하는 LuxMark를 준비했습니다. 여기에 더해 3D 영상 렌더러로 유명한 V-Ray, 그리고 최근에 가장 각광을 받고 있는 GPU 기반 실시간 렌더링을 지원하는 옥테인 렌더(OctaneRender) 벤치마크도 준비했으니 참고해주시기 바랍니다.        AIDA64 v5.98.4818 Beta GPGPU 벤치마크   </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___1869943594.jpg" title="9f965e55f270b48dd5d18635c646208a_1545384423_3906.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> ▲ AIDA64 GPGPU 벤치마크 테스트 결과 ※ GPGPU(General-Purpose Computing on Graphics Processing units)는 기존 그래픽카드의 GPU 역할이 3D 그래픽 분야에 한정되던 것에서 벗어나, 컴퓨팅 영역에서의 GPU 활용을 말합니다. GPGPU는 CPU와 달리 병렬 구조에 기인한 연산 능력에 압도적인 강점을 지닌 GPU 고유의 특징을 십분 살려 뛰어난 FLOPS(Floating-point Operations Per Second) 성능을 확보할 수 있습니다. CUDA/OpenCL과 같은 라이브러리를 주로 사용하며, CPU보다 훨씬 빠른 속도로 작업을 처리할 수 있기 때문에, 해당 영역의 성능이 필요한 사용자/전문가에게는 매우 중요한 지표입니다. 테스트 결과, 그래픽카드의 압도적 구성(RTX 2080 x7)이 유의미한 결과를 만들어내고 있다는 걸 대번에 알 수 있습니다. 특히 과거 RTX 2080 x4 시스템과 비교해서도 큰 폭으로 앞서는 성능이 인상적인데요. 항목에 따라 다르지만 최대 1.7배의 성능을 내어주기도 합니다. 여기서 지포스 RTX 2080 단일 그래픽카드와 비교하면 드라마틱한 성능 차이를 확인할 수 있습니다. 단정밀도/배정밀도/정수 연산 등의 항목에서는 그야말로 그래픽장수에 비례하는 성능 양상을 보여주며 7배에 가까운 엄청난 성능을 자랑합니다. 연산용 머신으로서 그래픽카드를 여러 개 장착하는 것이 큰 의미가 있다는 것을 말해주는 대목이죠. 전세대와 비교했을 때도 인상적인 부분이 여럿 발견됩니다. 먼저 정수(Integer) 연산 성능입니다. 파스칼 GPU 아키텍처 기반의 지포스 GTX 1080 Ti/GTX 1080은 FP32 단정밀도(Single-Precision) 성능에 비해 정수 연산은 약 1/3 수준으로 하락하지만, 튜링 GPU 아키텍처는 튜링 SM(Turing SM)에 FP32 유닛과 INT32 유닛이 동일 비율로 탑재되어, 단정밀도 성능과 동등한 수준의 24-bit 정수 연산/32-bit 정수 연산 성능을 확보할 수 있습니다. 또한 SHA-1과 같은 암호화 알고리즘 연산에도 두각을 드러냅니다.        SiSoft SANDRA 2017 SP4 (build 24.61) 벤치마크   <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___536369230.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540405720_1723.jpg" style="max-width:100%; height:auto;"> </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___88481089.jpg" title="9f965e55f270b48dd5d18635c646208a_1545384437_1742.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> ▲ SiSoft SANDRA 2017 SP4 벤치마크 결과 다음은 광범위한 GPGPU 테스트가 가능한 SiSoft SANDRA 벤치마크 결과입니다. 영재컴퓨터의 워크스테이션 시스템이 전반적인 영역에서 압도적인 성능을 발휘하는 것은 어찌 보면 당연한 결과이기 때문에 굳이 자세하게 서술하지 않겠습니다. 다만, GTX 1080 Ti/GTX 1080 대비 RTX 2080의 성능 특징을 살펴보는 것이 흥미로운 요소가 될 것입니다. AIDA64의 GPGPU에서 파스칼 아키텍처 대비 굉장히 뛰어난 모습을 보여주었지만, SANDRA에서는 크게 눈에 띄는 부분은 없습니다. 굳이 꼽자면, GP Cryptography 영역의 SHA2 해싱(Hashing Bandwidth SHA2-256 GP)값 정도가 있습니다.        LuxMark 3.1 OpenCL GPUs 벤치마크   </td></tr></tbody></table><table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___842956259.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540405846_9096.jpg" style="max-width:100%; height:auto;"> ※ Luxmark는 OpenCL(Open Computing Language) 성능을 측정할 수 있는 대표적인 벤치마크 프로그램입니다. OpenCL은 범용 병렬 컴퓨팅 프레임워크를 위한 API로 최초 애플이 개발하였으며, 그 후 AMD, 인텔, 엔비디아 등과 함께 크로노스(Khronos) 그룹을 통해 규격화되었습니다. 퀘이사존 회원이라면 한 번쯤은 OpenCL에 대해 들어봤을 걸로 추측되는데요, 쉽게 말하면 3D 게임에서 사용되는 DirectX, OpenGL, Vulkan 등의 API 개념과 유사한 것으로 생각하면 쉽습니다.   <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___700484924.jpg" title="9f965e55f270b48dd5d18635c646208a_1545384461_2898.jpg" style="max-width:100%; height:auto;"> 테스트는 각기 다른 Triangle(폴리곤 데이터)로 구성된 3D 이미지를 OpenCL로 렌더링 하며 호텔 로비(Hotel Lobby), TLM-102 마이크, LuxBall HDR 3종으로 구성됩니다. 영재컴퓨터 워크스테이션의 경우 RTX 2080 7개의 파워로 전 영역에서 단연 압도적인 성능을 기록합니다. 과거 RTX 2080 4개를 장착한 시스템과 비교해봐도 3개의 그래픽카드가 더 장착되어 그 성능을 유감없이 발휘합니다. 단일 RTX 2080과 GTX 1080 Ti를 비교해볼까요? RTX 2080은 호텔 로비에서 약 1.2배의 성능, LuxBall HDR에서 약 1.4배의 성능을 보여주면서 일반적인 성능 차이를  뛰어넘는 모습을 보여주는군요. 튜링 아키텍처의 인상적인 OpenCL 성능을 말해줍니다. 영재컴퓨터의 경우 단일 RTX 2080과 비교했을 때, 놀랍게도 7배를 넘는 성능을 보여주기도 하는데요. 이론적으로만 봤을 때 다중 구성의 그래픽카드는 단일 구성보다 효율이 낮기 때문에 7배에 미치지 못하는 것이 자연스러운 결과겠지만, 영재컴퓨터의 경우 커스텀 수랭 구성에 힘입어 더욱 높은 부스트 클록(1,900 MHz 내외)으로 작동하게 됩니다. 따라서 단일 그래픽카드 대비 7배가 넘는 성능 효율을 달성하게 된 것으로 추측됩니다.        V-Ray Benchmark 1.0.8   </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___145483643.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540405953_0946.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> ※ V-Ray는 카오스 그룹(Chaos Group)의 3D 렌더링 플러그인 소프트웨어입니다. 글로벌 일루미네이션(Global Illumination) 알고리즘을 사용하며, 여기에 패스 트레이싱(path tracing), 포톤 매핑(photon mapping), 방사 맵 등이 포함됩니다. 여러 3D 응용 프로그램에 플러그인 형태로 붙여서 렌더링을 지원하는데요. 대표적으로는 3ds 맥스(3ds Max), 시네마 4D(CINEMA 4D), 마야(maya), 블렌더(Blender) 등을 꼽을 수 있습니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___1870573326.jpg" title="9f965e55f270b48dd5d18635c646208a_1545384518_1708.jpg" style="max-width:100%; height:auto;"> 테스트 결과입니다. 다른 툴과 비교하여 V-Ray 벤치마크에서는 RTX 2080 x4 시스템에 비해 엄청난 성능 차이를 보여주지 못하고 있습니다. 추측하자면 렌더링에 소요되는 시간이 짧고, 기본적으로 초기 구동 시의 렌더링 준비 영역에서 잡아먹는 시간이 포함되기 때문에 최종 시간에는 차이가 크지 않은 것으로 보입니다. 아마도 GPU 부하가 더 높은 렌더링 작업이 가해진다면 조금은 달라진 모습을 보여줄 수 있겠죠.        OctaneBench 3.08.5   </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___387274781.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540406076_4685.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> ※ 옥테인벤치(OctaneBench)는 뉴질랜드의 Refractive Software(2012년에 OTOY가 인수)의 옥테인 렌더(Octane Render) 성능을 측정할 수 있도록 제작된 벤치마크 툴입니다. 옥테인 렌더는 V-Ray와 같이 3D 응용 프로그램(시네마 4D와 같은)의 렌더링 플러그인 형태로 작동하며, 최근에 가장 각광받고 있는 렌더러(Renderer)이기도 합니다. 특징이자 강점이라면 강력한 병렬 처리 능력을 갖춘 그래픽카드의 심장, GPU(Graphics Processing Unit)의 능력을 십분 발휘하여 작업자의 작업물 변경사항을 즉시 반영하고 실시간으로 뷰포트(viewport)가 업데이트됩니다. 쉽게 말하면 작업자가 실시간 렌더링을 통해 작업 편의성이 이를 통해 작업자는 조명이나 렌더링 설정 변경을 보다 기민하게 다룰 수 있으며, 무엇보다 기존의 CPU 기반 렌더러에서 느낄 수 없었던 강력한 성능을 제공합니다. 다만, 엔비디아의 CUDA 기술에 의존하고 있기 때문에 엔비디아 그래픽카드가 필수로 요구됩니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___492414305.jpg" title="104898358bc0558c4859c3f0b28ff1f4_1545639169_6338.jpg" style="max-width:100%; height:auto;"><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___1911783536.jpg" title="9f965e55f270b48dd5d18635c646208a_1545384554_2415.jpg" style="max-width: 100%; height: auto;"> 테스트 결과입니다. 최근 옥테인렌더를 활용한 렌더링 작업이 각광을 받고 있는 상황에서 영재컴퓨터의 RTX 2080 x7 시스템의 옥테인렌더 성능은 주목할만합니다. 단일 RTX 2080 그래픽카드가 약 200점의 성능을 보여준 반면, 영재컴퓨터의 워크스테이션 시스템은 약 1,300점 이상의 성능을 기록합니다. 약 6.6배의 놀라운 성능 효율입니다. 물론, 이렇게 우수한 성능 효율은 과거 RTX 2080 x4 시스템에서도 확인한 바 있었죠. 옥테인렌더는 그래픽카드에 투자하는 만큼 고스란히 성능으로 보답해준다는 걸 알 수 있습니다. 단일 그래픽카드 관점에서 RTX 2080과 GTX 1080 Ti의 경우 비슷한 성능을 보여주는 것은 아쉽지만, 소비전력이 RTX 2080이 더 낮기 때문에 전력 대비 성능은 조금 더 우수한 것으로 평가할 수 있습니다.        CPU/GPU 온도, 소비전력 테스트 </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___1236700306.jpg" title="104898358bc0558c4859c3f0b28ff1f4_1545639190_8823.jpg" style="max-width:100%; height:auto;"><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___1555876808.jpg" title="9f965e55f270b48dd5d18635c646208a_1545388060_8699.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> ▲ 옥테인렌더(OctaneRender) 구동 시 GPU #1~#7 풀로드 온도 YJMOD 영재컴퓨터 RTX 2080 x7 워크스테이션은 영재컴퓨터의 기술력과 그간의 축적된 시스템 구축 노하우를 십분 살려 커스텀 수랭으로 꾸며졌습니다. 듀얼 구성의 CPU는 물론, 7개 그래픽카드 모두에게 수랭 쿨링 시스템이 적용됩니다. 라디에이터의 경우 엄청난 두께의 480 mm(120 mm x4) 라디에이터 2개가 탑재되었습니다. TDP 85W의 E5-2630 v4 CPU 2개, 215W TDP의 RTX 2080 7개가 장착되었으니 대략 1700W에 해당하는 발열을 해소해야 하기 때문에, 강력한 쿨링 설루션을 갖추는 것은 매우 중요합니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___1411673124.jpg" title="9f965e55f270b48dd5d18635c646208a_1545384580_3879.jpg" style="max-width:100%; height:auto;"> 결과를 보면, CPU의 경우 블렌더(Blender) 렌더링 작업 시 최대 35도로 굉장히 낮은 온도를 기록하였습니다. 사실 E5-2630 v4 제온 프로세서 자체가 낮은 클록과 낮은 전압의 특성을 갖고 있기 때문에 가능한 온도입니다. HEDT CPU와 비교해봐도 스펙상 절반 수준의 TDP(=85W)를 보여주기 때문이죠. 그리고 가장 핵심 요소인 GPU 쿨링 능력을 살펴보도록 하겠습니다. 총 7개에 달하는 GPU가 최대 51도 수준에서 억제됨으로써 커스텀 수랭의 강점을 방증하고 있습니다. 공랭 쿨링 환경에서는 그래픽카드가 많으면 많아질수록, 주변 온도가 급속도로 높아지기 때문에 쿨링 효율이 나빠져 하이엔드 그래픽카드에서 이런 수준의 GPU 온도는 사실상 불가능합니다. 커스텀 수랭의 강점이 빛을 발하는 영역입니다. 또한, 낮은 GPU 온도는 더 높은 부스트 클록을 유지할 수 있게 해주기 때문에 실질적인 성능 부문에서도 유리합니다.    <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___771513565.jpg" title="104898358bc0558c4859c3f0b28ff1f4_1545639224_1259.jpg" style="max-width:100%; height:auto;"><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___2137148712.jpg" title="9f965e55f270b48dd5d18635c646208a_1545384599_3659.jpg" style="max-width: 100%; height: auto;"> 엄청난 성능에는 엄청난 소비전력이 수반됩니다. GPU 위주 작업에서는 무려 1,300~1,400W 수준의 전기를 퍼먹고 있습니다. 그냥 헤어드라이기를 계속 켜놓고 있는 수준이군요. 따라서, 가정용 전기로 본 시스템을 사용한다면 전기요금이 상상을 초월할 수 있습니다. 산업용 전기 환경을 추천합니다.        </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___983543957.jpg" title="104898358bc0558c4859c3f0b28ff1f4_1545639249_5565.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> YJMOD 영재컴퓨터 RTX 2080 x7 워크스테이션 총평 이런 괴물 시스템이 퀘이사존에 입고되면, QM들 사이에서도 각기 다른 관점에서의 소감을 듣곤 합니다. 영상팀에서는 "오 이걸로 렌더링 돌리면 지리겄소" 이런 반응이 주가 되는 반면, 칼럼/벤치팀에서는 "와씨 이걸로 벤치 돌려보고 싶다" 이렇게 말이죠. 물론, YJMOD RTX 2080 x7 워크스테이션 본연의 목적을 생각해본다면 감성보다는 실제 전문 작업자에게 높은 생산성을 가져다주기 위한 물건이지만, 컴덕후 입장에서 그저 하드웨어 자체로써도 흥미를 느낄 수 있다는 말을 하고 싶었습니다. 압도적인 부품 구성과 미친 소비 전력은 무언가 설명하기 힘든 카리스마를 만들어내곤 하니까요.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___1304687011.jpg" title="104898358bc0558c4859c3f0b28ff1f4_1545647947_5577.jpg" style="max-width:100%; height:auto;"> ▲ 시스템 전체를 휘감고 있는 영재컴퓨터의 커스텀 수랭 쿨링 설루션 그리고 영재컴퓨터의 워크스테이션 시스템이 인상적이었던 요소가 또 있습니다. 이렇게 전문적인 영역에서 빛을 발하는 워크스테이션 시스템은 주로 완성품을 다루는 브랜드에서 취급되며, 상당히 보수적인 부품 구성을 보여주는 경우가 많습니다. 일반적인 PC에 비해 시스템에 대한 안정성/신뢰성 부문에서 더 높은 수준을 요구하기 때문이죠. 하지만 영재컴퓨터는 워크스테이션에서도 상당히 전향적인 설계와 부품 구성으로 컴덕후들의 감성 수요에도 충족하려는 모습을 보여줍니다. CPU 쿨링의 RGB LED와 7장의 그래픽카드를 휘감고 있는 워터블록, 그리고 대형 4열 라디에이터 듀얼 구성은 낮은 코어 온도와 더 높은 성능을 내어줄 수 있는 데 핵심적인 역할을 합니다. 그리고 실제 테스트 결과에서도 매우 우수한 성능을 입증했습니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___2005840069.jpg" title="104898358bc0558c4859c3f0b28ff1f4_1545639532_7554.jpg" style="max-width:100%; height:auto;"> ▲ 상대적으로 아쉬웠던 인텔 제온 E5-2630 v4 듀얼 CPU 성능 하지만, 모든 부문에서 만족스러운 구성은 아니었습니다. 튜링 GPU 아키텍처 기반의 지포스 RTX 2080 그래픽카드 7장이 발휘하는 압도적인 성능과는 달리, CPU 구성은 상대적으로 약한 감이 있습니다. 인텔 제온 프로세서 E5-2630 v4의 경우 10 코어 20 스레드를 갖췄지만, 최대 클록 주파수가 겨우 3 GHz 수준이기에 듀얼 CPU 구성(총 20 코어 40 스레드)임에도 크게 인상적인 성능은 아니었습니다. 특히나 요즘은 CPU 스레드 개수나 멀티스레드 능력에서 빠르게 상향 평준화 되어가는 시점이기 때문에 더 아쉽게 느껴집니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___978488448.jpg" title="104898358bc0558c4859c3f0b28ff1f4_1545647986_4138.jpg" style="max-width:100%; height:auto;"> ▲ RTX 2080 x7 시스템의 위용, 다음에는 또 어떤 괴물을 선보일까? 이렇게 CPU에 대한 아쉬움을 토로하기는 했으나, 일반적인 PC에 비해 CPU 멀티스레드 능력 역시 굉장히 뛰어나다는 것은 사실입니다. 어디까지나 부품 조화 관점에서 보았을 때, GPU 자원이 절실한 사람에게 최상의 결과로 보답할 수 있는 시스템이란 뜻으로 해석해주시면 되겠습니다. 가격의 경우 세부적인 부품 디테일이 규격화된 제품이 아니기 때문에 정확한 정보를 제공해드릴 수는 없으나, 당장 파악이 가능한 개별 부품의 가격만 보아도 천만 단위를 넘어가는 수준입니다. 즉 보편적인 관점에서 평범한 개인이 사용하기에는 어려운 시스템입니다. 소비전력도 감당하기 힘들 테고요. 하지만, GPU를 적극 활용해야 하는 관련 업종 종사자, 딥러닝 연구, 렌더링 작업자 입장에서는 시간은 곧 돈이기에 이러한 장비에 돈을 투자하는 것이 아깝지 않을 것입니다. 아무리 비싸도 생산성을 향상시켜줄 수 있다면, 더 큰 이득이 될 수 있으니까요. 그나저나 영재컴퓨터는 자꾸 괴물 시스템만 만들어내는군요. 다음에는 어떤 조합과 부품 구성을 보여줄지 기대됩니다. 또한, 이 글을 봐주시는 여러분들에게도 흥미로운 제품을 소개하는 건 저에게도 굉장한 보람이니까요. 앞으로 더 멋진 제품으로 찾아오도록 하겠습니다. 이상, 퀘이사존벤치였습니다.        </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/editor/1802/5865adf4aba1555eb76679ed1c3853e9_1519205276_3676.png" title="5865adf4aba1555eb76679ed1c3853e9_1519205276_3676.png" style="text-align: center; max-width: 100%; height: auto;">  <div align="center" style="text-align: center;"> 퀘이사존의 저작물은 <a href="https://creativecommons.org/licenses/by-nc-nd/4.0/" target="_self">크리에이티브 커먼즈 저작자표시-비영리-변경금지 4.0 국제 라이선스</a>에 따라 이용할 수 있습니다.  </div>