리뷰 - 퀘이사존 공식 IT/하드웨어 리뷰

RTX 2080 4개를 탑재한 영재컴퓨터 YJMOD 워크스테이션

QM벤치

141 7623 71 2018.10.25 17:39

<div class="apms-autowrap"><div class="apms-autosize"><iframe width="1100" height="619" src="https://www.youtube.com/embed/PXZxVCDI86A" frameborder="0" allow="autoplay; encrypted-media" allowfullscreen=""></iframe></div></div><table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> ▲ 영재컴퓨터 YJMOD RTX 2080 x4 워크스테이션 프리뷰 영상(유튜브 영상 화질: 3840x2160/4K 해상도 지원)    </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___2004359022.jpg" title="0ffa0b0865bda4b81b6517c2182f081b_1540451953_72.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> 영재컴퓨터 YJMOD RTX 2080 x4 워크스테이션RTX 2080 4개 장착된 딥러닝/연산/렌더링 시스템  안녕하세요. 퀘이사존벤치입니다. 엔비디아의 지포스 RTX 시리즈가 발표되면서 게임용 그래픽카드 시장은 새로운 국면을 맞이했습니다. 그리고 과거와는 조금 달라진 상황이 되었죠. 기존에는 새로운 세대의 그래픽카드가 출시되면, 빠르게 세대교체 바람이 불면서 기존 라인업을 새로운 세대의 그래픽카드가 대체하는 형국이었지만, RTX 그래픽카드는 기존보다 더 비싼 프리미엄 그래픽카드로 가격대가 잡히면서, 파스칼 아키텍처의 지포스 10 시리즈와 양립하는 상황이 벌어진 것입니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___1124828796.png" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540407448_8125.png" style="max-width:100%; height:auto;">  여기에는 다양한 원인을 꼽을 수 있습니다. 경쟁사에서 이렇다 할 신제품이 없다는 것이 가장 큰 이유고, 덧붙여 엔비디아가 레이트레이싱을 강조하며 설계된 튜링 아키텍처 GPU의 본질적인 특징도 이유가 될 수 있습니다. 보다 미세화된 공정에 FP32 연산에 직접적인 영향을 끼치는 CUDA 코어만을 늘리는 데 그친 것이 아니라, GDDR6 메모리 인터페이스 채용, AI(Artificial Intelligence)를 위한 텐서 코어(AI 연산), RT 코어(레이트레이싱 연산)가 탑재되는 등 GTX를 RTX로 바꿀 만큼의 많은 변화가 있었기 때문이죠. 파스칼 아키텍처 기반의 지포스 10 시리즈가 여전히 소비자들에게 선택되고 있는 현재의 상황은 어쩌면 엔비디아가 의도했던 그림일지도 모르겠습니다. 물론, 그렇다고 해서 비싸진 가격을 납득할 수 있는가는 별개 문제로 남기고 말이죠.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___98371236.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540405415_151.jpg" style="max-width:100%; height:auto;"> 이렇게, 지포스 RTX 그래픽카드는 크고 작은 변화를 겪게 되면서, 게임용 그래픽카드로써의 가치 외에도 딥러닝(Deep Learning), GPGPU(General-Purpose computing on GPU)로 대표되는 범용 연산, 3D 렌더링 등 전문 작업 영역에서의 가치도 조명을 받고 있습니다. 튜링 아키텍처의 특성에 대해서는 아래 섹션에서 조금 더 설명을 이어가도록 할 텐데요. 제품 자체에 대한 내용을 빨리 보고 싶으신 분들은 쿨하게 넘어가주시길 바랍니다.    튜링의 SM 아키텍처 TURING STREAMING MULTIPROCESSOR ARCHITECTURE  튜링(Turing) 아키텍처는 볼타(Volta)의 GV100 SM 아키텍처에 도입된 많은 기능을 통합하여 새로운 SM 설계를 갖췄습니다. TPC 당 2개의 SM이 포함되며, 각 SM에는 총 64개의 FP32 코어와 INT32 코어가 존재합니다. 이에 비해 파스칼 GP100 시리즈 GPU는 TPC 당 1개의 SM과 각 SM에는 128개의 FP32 코어로 큰 차이를 보입니다. 튜링 SM은 FP32와 INT32 작업을 동시에 수행할 수 있으며, 볼타 GV100 GPU와 유사한 형태의 독립 스레드 스케줄링을 지원합니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___912441443.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540406784_1742.jpg" style="max-width:100%; height:auto;"> ▲ 튜링 SM 아키텍처(Turing SM Architecture) 튜링 SM은 4개의 프로세싱 블록으로 분할되며, 각 블록은 16개의 FP32 코어, 16개의 INT32 코어, 2개의 텐서 코어, 1개의 워프 스케줄러(Warp Scheduler)과 디스패치 유닛(Dispatch)으로 구성됩니다. 각 블록에는 새로운 L0 명령어 캐시와 64 KB 레지스터 파일이 포함됩니다. 4개의 프로세싱 블록은 96 KB L1 데이터 캐시/공유 메모리(Shared Memory)를 공유하게 됩니다. 기존 방식의 그래픽 워크로드는 96 KB L1/공유 메모리를 64 KB의 전용 그래픽 셰이더 RAM과 32 KB의 텍스처 캐시 및 레지스터 파일 유출 영역으로 분할합니다. 컴퓨트(Compute) 워크로드는 96 KB를 32 KB 공유 메모리와 64 KB L1 캐시 또는 64 KB 공유 메모리와 32 KB L1 캐시로 나눌 수 있죠. 이와 관련하여 FP32 코어와 INT32 코어의 비율이 1:1로 구성된 튜링 아키텍처의 특징은 본 칼럼의 하단에서 소개하는 AIDA64 GPGPU 벤치마크에서 성능으로서 검증이 가능합니다. 파스칼 아키텍처와 비교하여 INT32 연산 성능은 큰 폭으로 차이나기 때문입니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___897815194.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540406844_7542.jpg" style="max-width:100%; height:auto;"> 현대의 셰이더 워크로드 부하는 일반적으로 FADD 또는 FMAD와 같은 FP 산술 명령이 혼합되어 있는 형태이며 여기에는 데이터 주소 지정 및 가져오기를 위한 정수 추가, 결과 처리를 위한 부동소수점 비교 또는 최솟값/최댓값 등의 간단한 명령어로 구성됩니다. 위 이미지와 같이 실제로 수많은 워크로드를 프로파일링 해보면 100개의 부동소수점(FP) 연산에 대해 평균 36개의 정수(INT) 연산이 일어나고 있습니다. 이전의 셰이더 아키텍처는 이러한 비FP 산술 명령 중 하나가 실행되면, 부동소수점 연산을 위한 데이터 경로가 유휴 상태로 머무르게 됩니다.(즉 비FP 산술 명령이 떨어지면 손을 놓아버리는 상황) 하지만, 튜링 GPU는 모든 CUDA에 두 번째의 병렬 실행 단위를 추가하여 이러한 연산(FP+비FP/INT)을 동시에 실행합니다.    튜링 텐서 코어 | TURING TENSOR CORES <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___7915907.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540406920_3714.jpg" style="max-width:100%; height:auto;"> 튜링 GPU에는 볼타 GV100 GPU에 처음 도입된 텐서 코어의 향상된 버전이 포함되어 있습니다. 튜링의 텐서 코어 설계는 인퍼런싱(Inferencing) 워크로드에 INT8과 INT4 정밀 모드가 추가되었습니다. 반면, FP16은 높은 정밀도를 요구하는 워크로드에 사용되는 것이고요. 게이밍용 그래픽카드로서는 최초로 GPU에 텐서 코어를 도입함으로써, 게임 애플리케이션에 대한 실시간 딥러닝을 적용할 수 있게 되었습니다. 이를 통해 그래픽, 렌더링, 다양한 유형의 애플리케이션 성능을 향상시키는 엔비디아 NGX 신경 서비스(Neural Service)의 AI 기능을 가속화합니다. NGX AI 기능의 대표적인 예로는 딥러닝 슈퍼샘플링(DLSS), AI InPainting, AI Super Rez, AI Slow-Mo 등이 있습니다. DLSS를 통한 강력한 성능은 퀘이사존 벤치마크에서도 확인한 바 있지만, 문제는 네이티브 해상도와 비교했을 때의 품질 문제가 과제로 남아있는 상황입니다. 최소한 동등하거나 그 이상의 화질을 보장해주어야 박수 받을 수 있는 기술이지만, 아직까지는 충분한 모습을 답해주지 못하고 있기 때문입니다.(물론, AI 특성상 인퍼런싱/트레이닝 연산이 반복될수록 품질과 성능은 개선될 여지가 있습니다)  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___1955498381.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540406952_6873.jpg" style="max-width:100%; height:auto;"> 튜링 텐서 코어는 신경망 트레이닝(Training)/인퍼런싱(Inferencing)과 행렬(매트릭스, Matrix) 곱셈 연산을 가속화합니다. 딥러닝 연산에서 핵심이자 기본이 되는 연산 방식이기도 하죠. 특히 텐서 코어는 인퍼런싱에 탁월한 성능을 발휘하는데, 주어진 입력을 기반으로 트레이닝된 DNN(심층 신경망)을 거쳐 유용하고 관련성 있는 정보를 뽑아냅니다. 인퍼런싱 작업 결과의 대표적인 예로는 페이스북(facebook) 사진 속 친구들의 얼굴 식별, 자율주행자동차의 보행자/위험요소 식별과 분류, 실시간 번역, SNS의 사용자 맞춤형 추천 시스템 등을 꼽을 수 있습니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___863686913.jpg" title="0ffa0b0865bda4b81b6517c2182f081b_1540454444_5006.jpg" style="max-width:100%; height:auto;"> ▲ 튜링(Turing) 아키텍처 기반의 RTX 2080 4개가 장착된 영재컴퓨터 워크스테이션 다시 본론으로 돌아오면, 오늘 소개할 영재컴퓨터 시스템이 앞서 설명한 튜링 GPU 아키텍처 기반의 RTX 그래픽카드 특징과 직접적인 연관이 있습니다. 바로 엔비디아 지포스 RTX 2080을 무려 4개(튜링 TU104 GPU x4)를 장착한 워크스테이션이기 때문이죠. 다양한 분야와 작업 환경에서 강력한 성능을 보여줄 것으로 기대됩니다. 특히 그동안의 영재컴퓨터는 게임/작업 용도의 개인용 PC 외에도 자사의 기술 노하우와 경험을 살린 전문 작업 용도의 시스템 설계와 구축을 이어왔기 때문에 더 기대가 되는 부분이기도 하죠. 먼저 영재컴퓨터의 시스템 사양을 살펴보고 바로 성능 테스트로 넘어가도록 하겠습니다.        영재컴퓨터 시스템 사양  </td></tr></tbody></table><table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___737196865.jpg" title="0ffa0b0865bda4b81b6517c2182f081b_1540452066_1652.jpg" style="max-width:100%; height:auto;"><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___1409315102.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540405446_3334.jpg" style="max-width:100%; height:auto;"> 이미 알고 계시겠지만 본 시스템은 게임용 PC가 아닙니다. RTX 2080을 4장이나 탑재하고 있지만, 정작 게임용 PC가 되기 위해서 필요한 조건이 제외되어 있기 때문인데요. 쉽게 말해서 그래픽카드가 NVLink 브리지(Bridge)를 활용한 SLI 구성이 아닙니다. 또한, 엔비디아의 '공식' SLI 구성은 2-Way가 한계이기도 합니다. 따라서 게임 테스트는 제외하도록 하고, 워크스테이션으로써의 성능을 측정하고 검증하는 데 집중하도록 하겠습니다. 여기에는 AIDA64의 GPGPU 테스트와, 조금 더 세분화된 분야를 지원하는 SiSoft SANDRA 벤치마크, OpenCl 성능을 측정하는 LuxMark를 준비했습니다. 여기에 더해 3D 영상 렌더러로 유명한 V-Ray, 그리고 최근에 가장 각광을 받고 있는 GPU 기반 실시간 렌더링을 지원하는 옥테인 렌더(Octane Render) 벤치마크도 준비했으니 참고해주시기 바랍니다.        AIDA64 v5.98.4818 Beta GPGPU 벤치마크   </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___436361617.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540405615_9859.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> ▲ AIDA64 GPGPU 벤치마크 테스트 결과 ※ GPGPU(General-Purpose Computing on Graphics Processing units)는 기존 그래픽카드의 GPU 역할이 3D 그래픽 분야에 한정되던 것에서 벗어나, 컴퓨팅 영역에서의 GPU 활용을 말합니다. GPGPU는 CPU와 달리 병렬 구조에 기인한 연산 능력에 압도적인 강점을 지닌 GPU 고유의 특징을 십분 살려 뛰어난 FLOPS(Floating-point Operations Per Second) 성능을 확보할 수 있습니다. CUDA/OpenCL과 같은 라이브러리를 주로 사용하며, CPU보다 훨씬 빠른 속도로 작업을 처리할 수 있기 때문에, 해당 영역의 성능이 필요한 사용자/전문가에게는 매우 중요한 지표입니다. 테스트 결과, 압도적 구성(RTX 2080 x4) 상의 이점으로 대부분의 항목에서 단일 그래픽카드 성능을 크게 앞서게 됩니다. 대조군 그래픽카드도 다중 구성으로 했다면 더 흥미로운 결과를 볼 수 있었겠지만, 여건상 이번 테스트에서는 진행하지 못했습니다. 단일 RTX 2080과 비교하면 항목에 따라 다르지만 최대 4배에 가까운 성능을 내어줍니다. 여기서 전세대와 비교했을 때 인상적인 부분이 여럿 발견됩니다. 먼저 정수(Integer) 연산 성능입니다. 파스칼(Pascal) GPU 아키텍처 기반의 지포스 GTX 1080 Ti/GTX 1080은 FP32 단정밀도(Single-Precision) 성능에 비해 정수 연산은 약 1/3 수준으로 하락하지만, 튜링(Turing) GPU 아키텍처는 튜링 SM(Turing SM)에 FP32 유닛과 INT32 유닛이 동일 비율로 탑재되어, 단정밀도 성능과 동등한 수준의 24-bit 정수 연산/32-bit 정수 연산 성능을 확보할 수 있습니다. 또한 SHA-1과 같은 암호화 알고리즘 연산에도 두각을 드러내는군요. 이렇게 개선된 아키텍처의 특성에 힘입어 무려 4장의 RTX 2080이 장착된 영재컴퓨터 워크스테이션은 모든 항목에서 압도적인 성능을 보여주게 됩니다.        SiSoft SANDRA 2017 SP4 (build 24.61) 벤치마크   <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___536369230.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540405720_1723.jpg" style="max-width:100%; height:auto;"> </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___2098368437.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540405731_4507.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> ▲ SiSoft SANDRA 2017 SP4 벤치마크 결과 다음은 광범위한 GPGPU 테스트가 가능한 SiSoft SANDRA 벤치마크 결과입니다. 영재컴퓨터의 워크스테이션 시스템이 전반적인 영역에서 압도적인 성능을 발휘하는 것은 어찌 보면 당연한 결과이기 때문에 굳이 자세하게 서술하지 않겠습니다. 다만, GTX 1080 Ti/GTX 1080 대비 RTX 2080의 성능 특징을 살펴보는 것이 흥미로운 요소가 될 것입니다. AIDA64의 GPGPU에서 파스칼 아키텍처 대비 굉장히 뛰어난 모습을 보여주었지만, SANDRA에서는 크게 눈에 띄는 부분은 없습니다. 굳이 꼽자면, GP Cryptography 영역의 SHA2 해싱(Hashing Bandwidth SHA2-256 GP)값 정도가 있습니다.        LuxMark 3.1 OpenCL GPUs 벤치마크   </td></tr></tbody></table><table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___842956259.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540405846_9096.jpg" style="max-width:100%; height:auto;"> ※ Luxmark는 OpenCL(Open Computing Language) 성능을 측정할 수 있는 대표적인 벤치마크 프로그램입니다. OpenCL은 범용 병렬 컴퓨팅 프레임워크를 위한 API로 최초 애플이 개발하였으며, 그 후 AMD, 인텔, 엔비디아 등과 함께 크로노스(Khronos) 그룹을 통해 규격화되었습니다. 퀘이사존 회원이라면 한 번쯤은 OpenCL에 대해 들어봤을 걸로 추측되는데요, 쉽게 말하면 3D 게임에서 사용되는 DirectX, OpenGL, Vulkan 등의 API 개념과 유사한 것으로 생각하면 쉽습니다.   <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___901140480.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540405885_6685.jpg" style="max-width:100%; height:auto;"> 테스트는 각기 다른 Triangle(폴리곤 데이터)로 구성된 3D 이미지를 OpenCL로 렌더링 하며 호텔 로비(Hotel Lobby), TLM-102 마이크, LuxBall HDR 3종으로 구성됩니다. 영재컴퓨터 워크스테이션의 경우 RTX 2080 4장의 파워로 전 영역에서 단연 압도적인 성능을 기록합니다. 단일 RTX 2080과 GTX 1080 Ti를 비교해볼까요? RTX 2080은 호텔 로비에서 약 1.2배의 성능, LuxBall HDR에서 약 1.4배의 성능을 보여주면서 일반적인 성능 차이를  뛰어넘는 모습을 보여주는군요. 인상적인 OpenCL 성능입니다. 영재컴퓨터의 경우 단일 RTX 2080과 비교했을 때, 놀랍게도 4배 넘는 성능을 보여주는데요. 이는 커스텀 수랭으로 인한 낮은 GPU 온도 덕분에 더 높은 부스트 클록(실측: 1,980~1,995 MHz)으로 작동하기에 가능했던 결과로 판단됩니다.         V-Ray Benchmark 1.0.8   </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___145483643.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540405953_0946.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> ※ V-Ray는 카오스 그룹(Chaos Group)의 3D 렌더링 플러그인 소프트웨어입니다. 글로벌 일루미네이션(Global Illumination) 알고리즘을 사용하며, 여기에 패스 트레이싱(path tracing), 포톤 매핑(photon mapping), 방사 맵 등이 포함됩니다. 여러 3D 응용 프로그램에 플러그인 형태로 붙여서 렌더링을 지원하는데요. 대표적으로는 3ds 맥스(3ds Max), 시네마 4D(CINEMA 4D), 마야(maya), 블렌더(Blender) 등을 꼽을 수 있습니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___1179659308.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540405985_1414.jpg" style="max-width:100%; height:auto;"> 테스트 결과입니다. RTX 2080은 GTX 1080 Ti와 대동소이한 성능을 보여주었습니다. 딱히 튜링 GPU 아키텍처의 장점은 발휘되지 못하네요. 단일 그래픽카드에서는 약 1분이 넘는 렌더링 소요 시간을 보여주지만, 영재컴퓨터 워크스테이션의 경우 약 20초 수준에서 렌더링을 완료할 수 있습니다. 효율상 4배에는 미치지 못하고 3배를 조금 넘는 수준입니다.        OctaneBench 3.08.5   </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___387274781.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540406076_4685.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> ※ 옥테인벤치(OctaneBench)는 뉴질랜드의 Refractive Software(2012년에 OTOY가 인수)의 옥테인 렌더(Octane Render) 성능을 측정할 수 있도록 제작된 벤치마크 툴입니다. 옥테인 렌더는 V-Ray와 같이 3D 응용 프로그램(시네마 4D와 같은)의 렌더링 플러그인 형태로 작동하며, 최근에 가장 각광받고 있는 렌더러(Renderer)이기도 합니다. 특징이자 강점이라면 강력한 병렬 처리 능력을 갖춘 그래픽카드의 심장, GPU(Graphics Processing Unit)의 능력을 십분 발휘하여 작업자의 작업물 변경사항을 즉시 반영하고 실시간으로 뷰포트(viewport)가 업데이트됩니다. 쉽게 말하면 작업자가 실시간 렌더링으로 작업을 할 수 있기 때문에 매우 편하다는 뜻입니다. 무엇보다 옥테인 렌더는 기존의 CPU 기반 렌더러에서 느낄 수 없었던 강력한 성능도 제공하죠. 다만, 엔비디아의 CUDA 기술에 의존하고 있기 때문에 엔비디아 그래픽카드가 필수로 요구됩니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___1641236656.jpg" title="0ffa0b0865bda4b81b6517c2182f081b_1540454394_1091.jpg" style="max-width:100%; height:auto;"><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1812/1812___1941923420.jpg" title="639e6dfa921ab80bd68f436fafa0fb08_1545155484_8742.jpg" style="max-width:100%; height:auto;"> 테스트 결과 병렬 GPU 처리 능력뿐만 아니라, 다중 그래픽카드 구성 효율도 매우 좋다는 것을 알 수 있습니다. 단일 RTX 2080 그래픽카드가 약 200점의 성능을 보여준 반면, 영재컴퓨터의 워크스테이션 시스템은 약 800점에 가까운 성능을 뽑아주네요. 약 3.99배의 놀라운 효율입니다. 이를 통해 알 수 있는 사실은 옥테인 렌더가 그래픽카드에 투자하는 만큼 고스란히 성능으로 보답해준다는 것이겠네요. 단일 그래픽카드 관점에서 RTX 2080과 GTX 1080 Ti의 경우 비슷한 성능을 보여주는 것은 아쉽지만, 소비전력이 RTX 2080이 더 낮기 때문에 전성비는 조금 더 우수한 것으로 평가할 수 있습니다.          CPU/GPU 온도, 소비전력 테스트 </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___55657922.jpg" title="0ffa0b0865bda4b81b6517c2182f081b_1540452560_88.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> ▲ CPU와 4장의 그래픽카드 모두 커스텀 수랭 쿨링 설루션으로 구성 영재컴퓨터 YJMOD RTX 2080 x4 워크스테이션은 영재컴퓨터의 기술력과 그간의 축적된 시스템 구축 노하우를 십분 살려 커스텀 수랭으로 꾸며졌습니다. CPU는 물론, GPU 4개 모두에게 물의 힘이 작용합니다. 라디에이터의 경우 60T 480 mm(120 mm x4) 라디에이터 2개가 탑재되었습니다. TDP가 140W에 달하는 i9-7920X CPU, 215W TDP의 RTX 2080 4개가 장착되었으니 대략 1000W에 해당하는 발열을 해결해야 하기 때문에, 강력한 쿨링 설루션을 갖추는 것은 매우 중요합니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___347873531.jpg" title="0ffa0b0865bda4b81b6517c2182f081b_1540453087_8436.jpg" style="max-width:100%; height:auto;"> ▲ 옥테인벤치(OctaneBench) 구동 시 GPU #1~#4 풀로드 온도  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___1793837151.jpg" title="0ffa0b0865bda4b81b6517c2182f081b_1540453384_6467.jpg" style="max-width:100%; height:auto;"> 결과를 보면, CPU의 경우 블렌더(Blender) 렌더링 작업 시 최대 68도의 코어 온도를 보여주어 준수한 발열 억제 능력을 보여줍니다. 무엇보다 가장 놀라운 것은 바로 GPU 쿨링 능력인데요. 총 4개에 달하는 GPU가 최대 51도 수준에서 억제됨으로써 커스텀 수랭의 강점을 방증하고 있습니다. 물론, 여기에는 영재컴퓨터의 시스템 구축 노하우도 깃들어 있겠죠. 가장 낮은 온도를 기록했던 4번 그래픽카드의 온도 44도, 가장 높은 온도를 기록했던 1번 그래픽카드는 51도입니다. 공랭 쿨링 환경에서는 그래픽카드가 많으면 많아질수록, 주변 온도가 급속도로 높아지기 때문에 쿨링 효율이 나빠져 하이엔드 그래픽카드에서의 이런 GPU 온도는 사실상 불가능합니다. 커스텀 수랭의 강점이 빛을 발하는 영역입니다.    <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___1120721675.jpg" title="0ffa0b0865bda4b81b6517c2182f081b_1540454293_713.jpg" style="max-width:100%; height:auto;"><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___762234656.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540406205_1361.jpg" style="max-width:100%; height:auto;"> 좋은 의미든, 나쁜 의미든 기대되는 소비 전력 측정입니다. 테스트 조건은 GPU 4개를 거의 풀로 쓰는 옥테인벤치(OctaneBench) 구동을 지속하는 환경입니다. 유휴 환경에서는 152.2W로 측정 되었지만, 옥테인벤치 구동 시 순간 최대 전력은 866.2W로 치솟게 됩니다. 평균값은 802.4W. 시스템에 구비된 1500W 파워가 든든하게 느껴진 순간이었습니다.        </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___26276957.jpg" title="0ffa0b0865bda4b81b6517c2182f081b_1540454348_5268.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> 영재컴퓨터 YJMOD RTX 2080 x4 워크스테이션 총평 영재컴퓨터 YJMOD RTX 2080 x4 워크스테이션은 CPU 멀티스레드 능력을 고려한 인텔 코어 X-시리즈 i9-7920X(12C/24T)와 딥러닝 및 병렬 GPU 연산을 위해 엔비디아 최신 지포스 그래픽카드인 RTX 2080 4개를 탑재하는 등 강력한 부품 구성으로 무장한 시스템입니다. 주요 부품의 TDP만 합쳐보아도 1000W에 달하지만, 커스텀 수랭 쿨링 설루션으로 낮은 온도로 억제하여 안정적인 고성능을 바라볼 수 있다는 것이 큰 장점이 되겠죠. 실제로 GPU 4개를 최대한 끌어다 사용하는 프로그램 구동 시에도 40도 중반에서 최대 50도 수준의 GPU 온도를 확인할 수 있었습니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___1573772786.jpg" title="0ffa0b0865bda4b81b6517c2182f081b_1540454621_1614.jpg" style="max-width:100%; height:auto;"> 객관적인 성능 역시 일반적으로 개인이 사용하는 하이엔드 데스크톱 시스템과는 완전히 다른 성능을 제공해주었습니다. 이는 전문 작업 영역에서 사용되는 프로그램은 병렬 연산을 잘 지원하기 때문이었는데요. 특히 검증 가능했던 옥테인 렌더(Octane Render)와 GPGPU가 인상적이었고, 본 테스트에서 다루지는 않았지만 텐서 코어를 활용한 딥러닝(Deep Learning) 등의 인공지능 연산 부문에서 투자한 만큼의 결과를 맛볼 수 있는 시스템이라 할 수 있습니다. 아울러 낮은 GPU 온도와 높은 부스트 클록 유지력은 프로그램에 따라 단일 RTX 2080의 4배가 넘는 성능을 보여주기도 했습니다.(대표적인 예: LuxMark) 이렇게 엄청난 성능과 쿨링 능력을 모두 겸비한 괴물 시스템이지만... 네, 엄청 비쌉니다. 세부적인 사양이 모두 규격화된 제품은 아니라서 구체적인 가격은 공개할 수 없지만, 엄청 비쌀 것이라는 건 확실합니다. 따라서, 개인용 PC 관점에서 본다면 괴리감이 크게 느껴지실 수도 있을 것입니다. 하지만, 영재컴퓨터 워크스테이션이 가져다줄 수 있는 성능적 이점이 자신의 직업 환경 또는 특수 목적에 부합한다면, 충분히 투자할 만한 가치가 있을 것입니다. 시간은 곧 돈이고, 강력한 성능은 곧 시간을 아낄 수 있으니까요. 앞으로도 개인용 커스텀 수랭 PC 외에도 다양한 조합의 괴물 시스템을 설계하고 구축하는 영재컴퓨터의 또다른 제품이 기대되는군요. 이상, 퀘이사존벤치였습니다.        </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/editor/1802/5865adf4aba1555eb76679ed1c3853e9_1519205276_3676.png" title="5865adf4aba1555eb76679ed1c3853e9_1519205276_3676.png" style="text-align: center; max-width: 100%; height: auto;">  <div align="center" style="text-align: center;"> 퀘이사존의 저작물은 <a href="https://creativecommons.org/licenses/by-nc-nd/4.0/" target="_self">크리에이티브 커먼즈 저작자표시-비영리-변경금지 4.0 국제 라이선스</a>에 따라 이용할 수 있습니다.  </div>