리뷰 - 퀘이사존 공식 IT/하드웨어 리뷰

영재컴퓨터 RTX 2080 Ti x4 딥러닝/연산/렌더링 시스템

QM벤치

100 14586 61 2019.03.29 21:47

<div class="apms-autowrap"><div class="apms-autosize"><iframe width="1100" height="619" src="https://www.youtube.com/embed/BOml230rRAw" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen=""></iframe></div></div><table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> ▲ 영재컴퓨터 RTX 2080 Ti x4 시스템 리뷰 영상(유튜브 영상 화질: 3840x2160/4K 해상도 지원)    </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___546908443.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553851732_4413.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> YJMOD 영재컴퓨터 RTX 2080 Ti x4 커스텀 수랭 PCRTX 2080 Ti 4개를 탑재한 딥러닝/연산/렌더링 시스템  안녕하세요. 퀘이사존벤치입니다. 하드웨어 관련 테스트나 리뷰를 여러 해 동안 지속하다보면, 자연스럽게 본인만의 철학이 생겨나기 마련이고 한편으로는 편견이 자리잡기도 합니다. 물론, 시장에는 항상 새로운 제품들이 멈추지 않고 등장합니다. 늘 그래왔듯이 말이죠. 하지만 그래픽카드나 CPU의 경우 반도체의 태생적 한계를 벗어나기 힘들기 때문에, 공정미세화와 아키텍처 개선 그리고 코어 개수와 클록 주파수를 향상시키는 방식으로 성능 발전의 역사가 반복됩니다. 따라서 이를 바라보는 제 시선이나 관점도 매너리즘에 빠지는 경우가 있습니다. 한 마디로 재미와 흥미를 느낄만한 자극이 점점 떨어지는 것이죠. 그런 저를 그나마 자극시킬 수 있는 것들이라면, 플랫폼 관점에서의 새로운 시도 혹은 독특한 철학이 반영된 제품들입니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___2132263694.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553850410_6392.jpg" style="max-width:100%; height:auto;"> ▲ 본체만으로 책상을 꽉 채우는 영재컴퓨터 시스템  그런 와중에 오늘 소개할 딥러닝/연산 용도의 영재컴퓨터 시스템이 절 자극시키는 데 성공했습니다. 실로 일반 사용자용 PC 컴포넌트 시장에서 최고의 성능이라 할 수 있는 부품들은 속된 말로 다 때려 박은 것도 모자라, 하나는 공랭으로 다른 하나는 커스텀 수랭으로 꾸몄다는 흥미로운 차별성을 부여했습니다. 즉 CPU와 그래픽카드, 마더보드와 메모리, 파워서플라이와 케이스 등 모든 부품이 동일하지만, 시스템 성능을 결정짓는 핵심 요소인 CPU와 GPU 쿨링 방식을 수랭 버전과 공랭 버전으로 꾸밈으로써 작게는 두 시스템에 대한 차이를, 크게는 쿨링 시스템 차이는 근본적인 의미에서 어떤 변화가 생기는지 살펴볼 수 있는 시간을 가질 수 있었습니다.    전반적인 시스템 사양은? <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___256737067.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553849998_293.jpg" style="max-width:100%; height:auto;"> ▲ 동일한 사양에 쿨링 설루션만 달리 구성(좌: 커스텀 수랭, 우: 공랭) ※ 커스텀 수랭 버전의 경우 그래픽카드 팩토리 오버클록 적용 시스템 사양부터 살펴보도록 하겠습니다. 컴퓨터의 두뇌라 할 수 있는 CPU부터 짚어보죠. 작년 말에 출시된 인텔 코어 X-시리즈 프로세서 중 최상위 성능을 가진 i9-9980XE를 탑재했습니다. 18 코어 36 스레드에 24.75 MB의 L3 캐시 등 데스크톱 용도로 출시된 인텔 CPU 중에서는 가장 화려한 스펙을 자랑하는 제품입니다. 이에 대응하는 마더보드는 ASUS WS X299 SAGE를 선정했는데요. 딥러닝/서버/워크스테이션 등의 용도로 태어난 모델이기도 하고, 그래픽카드 4장을 연결하기 위해서는 이상적인 PCIe 3.0 슬롯 구성을 갖췄기 때문에 납득이 됩니다. <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___627950193.png" title="7942afa1dfc80e95f046b04ae1c38cdb_1553850225_9156.png" style="max-width:100%; height:auto;"> <div style="text-align: center;" align="center">▲ 인텔 코어 i9-9980XE와 ASUS WS X299 SAGE 조합</div>  메모리 구성도 다소 충격적인데요. 스펙 자체는 X299 플랫폼의 레퍼런스에 해당하는 2,666 MHz이기 때문에 놀라울 것이 없지만, 16GB 메모리가 무려 8개나 꽂혀 총 128GB를 자랑합니다. 보통 적게는 8GB 구성, 많게는 16/32GB 구성이 대다수를 차지하기 때문에, 이런 용량의 메모리 구성은 신선한 충격입니다. 이 역시 시스템의 용도를 생각해보면 납득이 가는 구성입니다. 고용량의 시스템 메모리는 한 번에 많은 데이터를 작업 공간에 상주시킬 수 있기 때문에, 작업자에게는 좀 더 쾌적한 작업 환경을 마련해주는 데 도움을 주기 때문이죠. 16GB 단일 메모리가 10만 원이 넘어가는 현 시세를 생각해보면 CPU+마더보드+메모리 구성만 해도 이미 중고차 가격 수준일 겁니다. 어마어마하군요.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___323415667.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553850468_5338.jpg" style="max-width:100%; height:auto;"> ▲ 8개 슬롯에 꽉 들어찬 16GB 메모리(일명 풀뱅)는 컴덕후의 마음을 편안하게 해준다 다음은 시스템 용도 상 가장 핵심 부품이자 성능 발휘에 가장 중요한 그래픽카드입니다. 엔비디아 튜링 GPU 아키텍처 기반의 게이밍 그래픽카드 중 가장 높은 성능을 가진 RTX 2080 Ti로 구성했습니다. 해당 그래픽카드는 튜링 GPU 중 빅칩에 해당하는 TU102 GPU와 GDDR6 11GB 메모리를 탑재하였고, 전용 텐서 코어(Tensor cores)가 포함되어 있기 때문에 딥러닝 연산 용도로도 각광을 받고 있죠. 특히 팩토리 오버클록과 전용 워터블록이 갖춰진 ‘GIGABYTE AORUS Xtreme 지포스 RTX 2080 Ti D6 11GB 워터블럭’이 탑재되어 쿨링 성능과 외형 면에서도 빠지지 않도록 구성했습니다. 커스텀 수랭 시스템에 잘 어울리는 모델 선정입니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___40276157.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553853023_7071.jpg" style="max-width:100%; height:auto;">  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___38175749.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553853821_2366.jpg" style="max-width:100%; height:auto;"> ▲ RTX 2080 Ti 4개 모두 커스텀 수랭으로 꾸며졌다  팩토리 오버클록의 경우 스펙상 부스트 클록이 1,770 MHz인데요. 해당 수치는 레퍼런스 클록(1,545 MHz)과 비교 시 14.6%, 파운더스 에디션 클록(1,635 MHz)과 비교 시 8.3% 높은 것으로 분명한 차이가 있습니다. 게다가 수랭 쿨링의 이점으로 낮은 GPU 온도는 더 높은 부스트 클록을 달성할 수 있게 만들어주는 전제 조건이기 때문에, 그래픽카드의 성능 발휘에 있어서는 이상적인 세팅입니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___1518537454.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553863219_1712.jpg" style="max-width:100%; height:auto;"> ▲ 저장매체는 14TB HDD 4개와 NVMe SSD 1TB로 구성  저장매체 구성도 상당합니다. 삼성전자의 970 PRO NVMe M.2 2280 1TB SSD를 필두로 시게이트 14TB HDD 4개를 장착하여 총 57(56+1)TB의 저장 공간을 확보했습니다. 연산을 위한 핵심 부품 뿐만 아니라 저장매체 구성까지 혀를 내두를 정도의 구성을 계속해서 이어가고 있습니다. 이러한 강력한 부품들에게 전력을 공급해야하는 파워서플라이는 쿨러마스터의 MasterWatt 1500W 80PLUS TITANIUM을 선정했군요. 마지막으로 케이스는 커세어의 슈퍼 타워 케이스, OBSIDIAN 1000D입니다. 시스템을 이루고 있는 부품 하나하나가 모두 최고급형 제품으로만 구성되어 있는 영재컴퓨터의 RTX 2080 Ti x4 딥러닝/연산/렌더링 시스템. 본격적인 내용으로 넘어가보도록 하겠습니다.    커스텀 수랭과 공랭 버전의 차이는? <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___1945553322.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553863277_0816.jpg" style="max-width:100%; height:auto;"> ▲ 좌: 공랭 시스템, 우: 커스텀 수랭 시스템  수랭 시스템의 경우 CPU는 EK-Velocity 워터블록, 그래픽카드는 AORUS Xtreme 워터블록을 씌워 4열 라디에이터 2개로 연결되는 커스텀 수랭 구성입니다. 특히 라디에이터의 위용이 상당한데요. EK-CoolStream XE 480 모델로 두께만 해도 무려 60T입니다. 해당 모델을 2개로 구성하여 120mm 쿨링팬은 총 8개가 장착됩니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___1812714568.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553852611_2222.jpg" style="max-width:100%; height:auto;"> ▲ 60T 두께의 4열 EK-CoolStream XE 480 라디에이터 듀얼 구성 다음은 공랭 시스템인데요. 공랭이라고 해서 무시할 만한 수준은 아닙니다. 일명 농협 쿨러로 불리는 NH-D15를 탑재했습니다 히트싱크의 물리적 크기에서 비롯되는 위압감이 상당합니다. 지금이야 일체형 수랭 쿨러/커스텀 수랭 쿨러가 많이 대중화되었지만, 2010년 초반까지만 하더라도 CPU 쿨러는 이렇게 히트싱크가 크고 아름다운 모델들이 인기가 많았죠. 물론, 지금도 취향에 따라서는 사용자의 선택을 받기도 합니다. 다만, 그 입지가 줄어들었을 뿐이겠죠. 암튼, 이 정도 수준의 공랭 쿨러라면 i9-9980XE도 문제없이 식혀줄 것으로 예상됩니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___171759002.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553852720_0653.jpg" style="max-width:100%; height:auto;"> ▲ 뛰어난 성능의 공랭 쿨러, NOCTUA(녹투아) NH-D15 다음은 그래픽카드입니다. ASUS의 블로워팬 타입 RTX 2080 Ti를 장착했는데요. 아니 엄청나게 값비싼 시스템인데, 그래픽카드 중에서도 가장 기본형 제품을 선택한 이유가 있냐고 되물을 수 있을 것입니다. 하지만, 이렇게 여러 장의 그래픽카드를 장착할 때는 화려한 듀얼/트리플팬 쿨링 시스템 제품보다 블로워팬 타입의 쿨링이 오히려 더 적합한 구성입니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___1186631093.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553852883_778.jpg" style="max-width:100%; height:auto;"> ▲ 다중 그래픽카드를 공랭으로 구성한다면 블로워팬이 정답  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___1556539061.png" title="7942afa1dfc80e95f046b04ae1c38cdb_1553853182_4373.png" style="font-size: 18.6667px; max-width: 100%; height: auto;">  여기에 대한 설명은 얼마 전 진행했던 SLI 벤치마크에서도 확인할 수 있는데요. 단일 그래픽카드 상황에서는 듀얼팬 쿨러를 갖춘 RTX 2080 Ti FE가 GTX 1080 Ti FE보다 더 낮은 GPU 온도를 보여줍니다. 그러나 그래픽카드를 2개 장착하게 되면 상황은 완전히 달라집니다. RTX 2080 Ti FE의 경우 상단 그래픽카드의 GPU 온도와 RPM이 치솟는 문제점이 발견되었죠. 이는 흡기 영역의 공기 온도와 배기 방식의 구조적 특징을 핵심 원인으로 꼽을 수 있습니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___615002714.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553852996_5703.jpg" style="max-width:100%; height:auto;"> ▲ 다닥다닥 붙어 있을 땐 듀얼/트리플팬 구성의 플라워형 쿨러보다 블로워팬이 이상적 이렇게 한정된 공간에서 뜨거운 열을 발생하는 그래픽카드가 여러 개일 경우 공기를 빨아들여 뜨거워진 공기를 외부로 배출하는 블로워팬 타입이 외부 환경에 의한 쿨링 영향을 덜 받습니다. 따라서 당시 SLI 벤치에서는 RTX 2080 Ti FE SLI보다 GTX 1080 Ti FE SLI가 상대적으로 안정적인 모습을 보여줬던 것입니다. 영재컴퓨터는 이러한 공기역학적 특징을 잘 고려하여 블로워팬으로 선택한 것이겠죠.   그런데, 4개의 그래픽카드가 과연 필요한 걸까? <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___1314612496.png" title="81e86c587cbee9b42cb2046c96725abc_1553776923_9508.png" style="max-width:100%; height:auto;"> 결론부터 말씀드리면 "예 필요합니다." 얼마전 퀘이사존에서 진행한 SLI 게이밍 벤치에서도 정리된 내용이지만, 게임 분야에 한정하면 다중 그래픽카드 구성이 여러모로 좋지 않은 효율을 보여주는 것은 맞습니다. 하지만, 병렬 GPU/그래픽카드를 지원하는 연산/작업 분야로 시선을 옮겨보면 완전히 다른 결론이 나오죠. 별도의 SLI 설정을 하지 않아도 PCIe 슬롯에 그래픽카드만 장착되어 있으면, 상당히 높은 효율로 그래픽카드의 GPU 자원을 활용할 수 있기 때문입니다. 따라서 그래픽카드를 꼽으면 개수대로 성능을 쭉쭉 뽑아줍니다. 이러한 병렬 방식의 연산은 작업자에게 실질적인 이점을 가져다주기 때문에, CPU나 GPU를 다중으로 구성하여 작업 생산성을 최대치로 끌어올리는 것이 굉장히 중요합니다. 이런 맥락에서 영재컴퓨터 RTX 2080 Ti x4 시스템 역시 앞서 언급한 제품의 특수성과 사용 목적에 맞게 구성된 시스템입니다. 자세한 내용을 살펴보기 전에, 잠시 RTX 2080 Ti에 탑재된 튜링 아키텍처(Turing Architecture) GPU의 개요 및 특징을 알 수 있는 내용을 담아보았습니다. 과거 칼럼을 통해 내용을 이미 숙지하고 계신 분들은 본 내용은 넘어가주셔도 좋겠네요.    <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___98371236.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540405415_151.jpg" style="max-width: 100%; height: auto;"> 지포스 RTX 그래픽카드는 파스칼 아키텍처(Pascal Architecture) 기반의 지포스 GTX 10 시리즈에 비해 크고 작은 변화를 겪게 되면서, 게임용 그래픽카드로써의 가치 외에도 딥러닝(Deep Learning), GPGPU(General-Purpose computing on GPU)로 대표되는 범용 연산, 3D 렌더링 등 전문 작업 영역에서의 가치도 조명을 받고 있습니다. 일반적인 게이밍에 가장 중요한 FP32 연산을 담당하는 CUDA 코어 외에도 딥러닝을 위한 텐서(Tensor) 코어, 레이트레이싱(Ray Tracing)을 위한 RT 코어 등을 함께 갖췄기 때문이죠.  튜링의 SM 아키텍처 TURING STREAMING MULTIPROCESSOR ARCHITECTURE  튜링(Turing) 아키텍처는 볼타(Volta)의 GV100 SM 아키텍처에 도입된 많은 기능을 통합하여 새로운 SM 설계를 갖췄습니다. TPC 당 2개의 SM이 포함되며, 각 SM에는 총 64개의 FP32 코어와 INT32 코어가 존재합니다. 이에 비해 파스칼 GP100 시리즈 GPU는 TPC 당 1개의 SM과 각 SM에는 128개의 FP32 코어로 큰 차이를 보입니다. 튜링 SM은 FP32와 INT32 작업을 동시에 수행할 수 있으며, 볼타 GV100 GPU와 유사한 형태의 독립 스레드 스케줄링을 지원합니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___912441443.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540406784_1742.jpg" style="max-width:100%; height:auto;"> ▲ 튜링 SM 아키텍처(Turing SM Architecture) 튜링 SM은 4개의 프로세싱 블록으로 분할되며, 각 블록은 16개의 FP32 코어, 16개의 INT32 코어, 2개의 텐서 코어, 1개의 워프 스케줄러(Warp Scheduler)과 디스패치 유닛(Dispatch)으로 구성됩니다. 각 블록에는 새로운 L0 명령어 캐시와 64 KB 레지스터 파일이 포함됩니다. 4개의 프로세싱 블록은 96 KB L1 데이터 캐시/공유 메모리(Shared Memory)를 공유하게 됩니다. 기존 방식의 그래픽 워크로드는 96 KB L1/공유 메모리를 64 KB의 전용 그래픽 셰이더 RAM과 32 KB의 텍스처 캐시 및 레지스터 파일 유출 영역으로 분할합니다. 컴퓨트(Compute) 워크로드는 96 KB를 32 KB 공유 메모리와 64 KB L1 캐시 또는 64 KB 공유 메모리와 32 KB L1 캐시로 나눌 수 있죠. 이와 관련하여 FP32 코어와 INT32 코어의 비율이 1:1로 구성된 튜링 아키텍처의 특징은 본 칼럼에서 소개하는 AIDA64 GPGPU 벤치마크에서 성능으로서 검증이 가능합니다. 파스칼 아키텍처와 비교하여 INT32 연산 성능은 큰 폭으로 차이나기 때문입니다.  튜링 텐서 코어 | TURING TENSOR CORES <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___7915907.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540406920_3714.jpg" style="max-width:100%; height:auto;"> 튜링 GPU에는 볼타 GV100 GPU에 처음 도입된 텐서 코어의 향상된 버전이 포함되어 있습니다. 튜링의 텐서 코어 설계는 인퍼런싱(Inferencing) 워크로드에 INT8과 INT4 정밀 모드가 추가되었습니다. 반면, FP16은 높은 정밀도를 요구하는 워크로드에 사용되는 것이고요. 게이밍용 그래픽카드로서는 최초로 GPU에 텐서 코어를 도입함으로써, 게임 애플리케이션에 대한 실시간 딥러닝을 적용할 수 있게 되었습니다. 이를 통해 그래픽, 렌더링, 다양한 유형의 애플리케이션 성능을 향상시키는 엔비디아 NGX 신경 서비스(Neural Service)의 AI 기능을 가속화합니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___1955498381.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540406952_6873.jpg" style="max-width:100%; height:auto;"> 튜링 텐서 코어는 신경망 트레이닝(Training)/인퍼런싱(Inferencing)과 행렬(매트릭스, Matrix) 곱셈 연산을 가속화합니다. 딥러닝 연산에서 핵심이자 기본이 되는 연산 방식이기도 하죠. 특히 텐서 코어는 인퍼런싱에 탁월한 성능을 발휘하는데, 주어진 입력을 기반으로 트레이닝된 DNN(심층 신경망)을 거쳐 유용하고 관련성 있는 정보를 뽑아냅니다. 인퍼런싱 작업 결과의 대표적인 예로는 페이스북(facebook) 사진 속 친구들의 얼굴 식별, 자율주행자동차의 보행자/위험요소 식별과 분류, 실시간 번역, SNS의 사용자 맞춤형 추천 시스템 등을 꼽을 수 있습니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___2026309020.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553853753_4849.jpg" style="max-width:100%; height:auto;"> ▲ 튜링(Turing) 아키텍처 기반의 RTX 2080 Ti 4개가 장착된 영재컴퓨터 커스텀 수랭 시스템 다시 본론으로 돌아와, 오늘 소개할 영재컴퓨터 시스템이 앞서 설명한 튜링 GPU 아키텍처 기반의 RTX 그래픽카드 특징과 직접적인 연관이 있습니다. TITAN RTX를 제외한 RTX 지포스 그래픽카드 중 가장 높은 성능을 지닌 지포스 RTX 2080 Ti를 무려 4개(튜링 TU102 GPU x4)나 탑재했기 때문이죠. RTX 2080 Ti의 시장 TU102 GPU CUDA 코어가 4,352개니까 7개면 무려 1만 7천 개 이상의 CUDA 코어(17,408 CUDA)를 확보할 수 있게 됩니다. 파스칼 아키텍처 GPU에 비해 CUDA 코어 개당 연산 효율도 증가했기 때문에, 이러한 CUDA 코어는 병렬 방식의 GPU 연산 능력을 잘 활용할 수 있는 애플리케이션에서 최고의 성능을 보여줄 수 있을 것으로 기대됩니다. 특히 영재컴퓨터는 게임 용도의 개인용 PC 외에도 자사의 기술 노하우와 경험을 살린 전문 작업 용도의 시스템 설계와 구축을 꾸준히 이어오고 있습니다. 이번 제품에서도 데스크톱 기반의 부품들을 아낌 없이 투자한 만큼 좋은 성능으로 회답해줄 것이라 기대됩니다.    YJMOD 영재컴퓨터 RTX 2080 Ti x4 시스템 사양  </td></tr></tbody></table><table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___2047520050.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553854113_8343.jpg" style="max-width:100%; height:auto;"><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___182086013.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553854226_2315.jpg" style="max-width:100%; height:auto;">     AIDA64 v5.99.4972 Beta GPGPU 벤치마크   </td></tr></tbody></table><table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___764026653.jpg" title="81e86c587cbee9b42cb2046c96725abc_1553773129_4217.jpg" style="max-width:100%; height:auto;">  ▲ AIDA64 GPGPU 벤치마크 테스트 결과 ※ GPGPU(General-Purpose Computing on Graphics Processing units)는 기존 그래픽카드의 GPU 역할이 3D 그래픽 분야에 한정되던 것에서 벗어나, 컴퓨팅 영역에서의 GPU 활용을 말합니다. GPGPU는 CPU와 달리 병렬 구조에 기인한 연산 능력에 압도적인 강점을 지닌 GPU 고유의 특징을 십분 살려 뛰어난 FLOPS(Floating-point Operations Per Second) 성능을 확보할 수 있습니다. CUDA/OpenCL과 같은 라이브러리를 주로 사용하며, CPU보다 훨씬 빠른 속도로 작업을 처리할 수 있기 때문에, 해당 영역의 성능이 필요한 사용자/전문가에게는 매우 중요한 지표입니다. 테스트 결과를 두 가지 관점에서 살펴보도록 하겠습니다. 첫 번째는 수랭과 공랭 버전의 차이, 두 번째는 단일 RTX 2080 Ti FE와의 비교입니다. GPU 기반 연산 성능에 있어 주요 항목을 살펴볼 텐데요. 공통적인 특징이라면 전 부문에서 수랭 버전 시스템이 조금 더 높은 성능을 보여준다는 것입니다. 어찌 보면, 자연스러운 결과겠죠. 클록도 더 높고 수랭 시스템이니까요. 단일 RTX 2080 Ti FE와 비교하면 드라마틱한 성능 차이를 확인할 수 있습니다. 단정도/배정도/정수 연산 등의 항목에서 그래픽카드 장수에 비례하는 성능 향상을 보여줍니다. 연산용 머신 용도로써 여러 개의 그래픽카드를 장착하는 것이 큰 의미가 있다는 것을 방증하죠. 전세대와 비교했을 때도 인상적인 부분이 발견됩니다. 먼저 정수(Integer) 연산 성능입니다. 파스칼 GPU 아키텍처 기반의 지포스 GTX 1080 Ti/GTX 1080은 FP32 단정도(Single-Precision) 성능에 비해 정수 연산은 약 1/3 수준으로 하락하지만, 튜링 GPU 아키텍처는 튜링 SM(Turing SM)에 FP32 유닛과 INT32 유닛이 동일 비율로 탑재되어, 단정도 성능과 동등한 수준의 24-bit 정수 연산/32-bit 정수 연산 성능을 확보할 수 있습니다.</td></tr></tbody></table><table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;">     LuxMark 3.1 OpenCL GPUs 벤치마크  </td></tr></tbody></table><table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___842956259.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540405846_9096.jpg" style="max-width:100%; height:auto;"> ※ Luxmark는 OpenCL(Open Computing Language) 성능을 측정할 수 있는 대표적인 벤치마크 프로그램입니다. OpenCL은 범용 병렬 컴퓨팅 프레임워크를 위한 API로 최초 애플이 개발하였으며, 그 후 AMD, 인텔, 엔비디아 등과 함께 크로노스(Khronos) 그룹을 통해 규격화되었습니다. 퀘이사존 회원이라면 한 번쯤은 OpenCL에 대해 들어봤을 걸로 추측되는데요, 쉽게 말하면 3D 게임에서 사용되는 DirectX, OpenGL, Vulkan 등의 API 개념과 유사한 것으로 생각하면 쉽습니다.   <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___254738179.jpg" title="81e86c587cbee9b42cb2046c96725abc_1553773761_4641.jpg" style="max-width:100%; height:auto;"> LuxMark의 가장 대표적인 항목인 LuxBall HDR 테스트 결과입니다. OpenCL 렌더링 성능을 알 수 있는 벤치마크 툴로써 영재컴퓨터의 커스텀 수랭 PC는 RTX 2080 Ti 4개의 힘으로 GPGPU 성능 테스트와 같이 단연 압도적인 성능을 발휘하게 됩니다. 그리고 수랭 버전에서는 더 높은 성능을 기대할 수 있죠. 실제로 수랭 시스템에서는 그래픽카드 4개 모두 실제 부스트 클록이 2.0 GHz를 상회하는 수준으로 작동하기 때문에 RTX 2080 Ti에게 기대할 수 있는 최상급의 성능을 내어주게 됩니다.   <div style="text-align: center;" align="center"><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___276759354.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553864417_9735.jpg" style="font-size: 18.6667px; max-width: 100%; height: auto;"></div><div style="text-align: center; line-height: 0.8;" align="center"> </div><div style="text-align: center;" align="center">▲ 영재컴퓨터 RTX 2080 Ti X4 풀로드 부스트 클록 수치</div>           V-Ray Benchmark 1.0.8   </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1810/1810___145483643.jpg" title="d7d9e8f47635fdec1aa2f0a4b9cc3323_1540405953_0946.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> ※ V-Ray는 카오스 그룹(Chaos Group)의 3D 렌더링 플러그인 소프트웨어입니다. 글로벌 일루미네이션(Global Illumination) 알고리즘을 사용하며, 여기에 패스 트레이싱(path tracing), 포톤 매핑(photon mapping), 방사 맵 등이 포함됩니다. 여러 3D 응용 프로그램에 플러그인 형태로 붙여서 렌더링을 지원하는데요. 대표적으로는 3ds 맥스(3ds Max), 시네마 4D(CINEMA 4D), 마야(maya), 블렌더(Blender) 등을 꼽을 수 있습니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___82782342.jpg" title="81e86c587cbee9b42cb2046c96725abc_1553773792_7966.jpg" style="max-width:100%; height:auto;"> V-Ray 테스트 결과입니다. 단일 RTX 2080 Ti FE와 비교하면, 큰 차이가 나지만 쿨링 설루션에 따른 성능 차이는 크지 않은 것으로 나타났습니다. 여기서 재밌는 테스트를 추가로 실시해보았는데요. V-Ray 벤치마크는 테스트 결과 후 웹 서버 접속을 통해 바로 점수 랭킹을 확인할 수 있는 기능을 제공합니다. 영재컴퓨터 커스텀 수랭 시스템은 테스트를 돌리자마자 GPU 렌더링 부문 세계 19위를 달성하는 위업을 보여주었는데요. 오버클록까지 적용해서 랭킹을 더 끌어올려 보기로 하였습니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___1356955810.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553859826_6916.jpg" style="max-width:100%; height:auto;"> ▲ 랭킹 한번 올려보자! +80 MHz/+800 MHz 오버클러킹 진행 코어 클록은 +80 MHz 메모리 클록은 +800 MHz 수준으로 무리하지 않는 선에서 말이죠. 그리고 그 결과를 공개합니다.    V-RAY BENCHMARK 세계 8위 달성!! <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___969025946.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553859870_2364.jpg" style="max-width:100%; height:auto;"> ▲ 간단(?)하게 세계 8위 랭크 성공!! 자 이렇게 세계 8위에 랭크되었습니다. 기록은 13.9초가 나왔네요. 부품 구성이 좋으니 큰 노력을 들이지 않아도 세계 10위 권 안에 랭크되는 기염을 토했습니다. 기록에 대한 타이틀을 정할 수 있다면 퀘이사존을 기입했을 텐데 아쉽네요. 그나저나 1위를 기록한 시스템 구성은 더 놀랍습니다. E5-2690 v4 CPU 24개에 테슬라(Tesla) V100 4개를 장착했습니다. 흠...터.    OctaneBench 4.00c   </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___842936963.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553864657_6743.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> ※ 옥테인벤치(OctaneBench)는 뉴질랜드의 Refractive Software(2012년에 OTOY가 인수)의 옥테인 렌더(Octane Render) 성능을 측정할 수 있도록 제작된 벤치마크 툴입니다. 옥테인 렌더는 V-Ray와 같이 3D 응용 프로그램(시네마 4D와 같은)의 렌더링 플러그인 형태로 작동하며, 최근에 가장 각광받고 있는 렌더러(Renderer)이기도 합니다. 특징이자 강점이라면 강력한 병렬 처리 능력을 갖춘 그래픽카드의 심장, GPU(Graphics Processing Unit)의 능력을 십분 발휘하여 작업자의 작업물 변경사항을 즉시 반영하고 실시간으로 뷰포트(viewport)가 업데이트됩니다. 쉽게 말하면 작업자가 실시간 렌더링을 통해 작업 편의성이 이를 통해 작업자는 조명이나 렌더링 설정 변경을 보다 기민하게 다룰 수 있으며, 무엇보다 기존의 CPU 기반 렌더러에서 느낄 수 없었던 강력한 성능을 제공합니다. 다만, 엔비디아의 CUDA 기술에 의존하고 있기 때문에 엔비디아 그래픽카드가 필수로 요구됩니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___1675395813.jpg" title="81e86c587cbee9b42cb2046c96725abc_1553773837_6009.jpg" style="max-width:100%; height:auto;"> 성능 테스트의 마지막은 옥테인벤치입니다. 3D 영상 작업에 최근 각광을 받고 있는 프로그램인 옥테인렌더의 성능을 대변해주는 툴이죠. CUDA 기반의 실시간 GPU 렌더링을 잘 지원하고 병렬 연산 효율이 무척 뛰어나기 때문에, 관련 작업자들이 매우 선호하는 프로그램이기도 합니다. 단일 RTX 2080 Ti FE가 약 308점, RTX 2080 Ti FE NVLink SLI 구성은 593점으로 이것만 보아도 엄청난 성능 효율을 보여주고 있음을 알 수 있습니다. 그리고 더욱 놀라운 건 그래픽카드가 4개가 되어도 효율이 크게 떨어지지 않는다는 사실이죠. 수랭 버전에서 1255점, 공랭 버전에서 1147점이라는 놀라운 점수를 보여줍니다. 해당 점수는 실제 옥테인렌더 성능을 그대로 반영해주기 때문에 실제 렌더링 성능과 직접적인 관련이 있어 더 의미가 깊기도 합니다. 또한, 수랭 버전 기준으로 GTX 1080 FE와 비교 시 약 8.5배 성능, RTX 2080 FE와 비교 시 약 5.5배 성능, RTX 2080 Ti FE와 비교 시 약 4.1배에 달하는 성능으로 풀이됩니다.    CPU/GPU 온도, 소비전력 테스트 </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___598111174.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553863149_3658.jpg" style="max-width:100%; height:auto;"><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___1472871472.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553860308_2157.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> ▲ 옥테인벤치(OctaneBench) 구동 시 GPU #1~#4 풀로드 온도 <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___200862569.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553860472_9283.jpg" style="max-width:100%; height:auto;"> ▲ EK-Velocity 워터블록을 입은 i9-9980XE 영재컴퓨터의 커스텀 수랭 시스템은 앞서 말씀드렸듯이 화려한 쿨링 설루션으로 무장하고 있죠. 60T 두께의 듀얼 4열 라디에이터를 필두로 CPU에는 EK-Velocity 워터블록이 그래픽카드 전체는 AORUS Xtreme 전용 워터블록으로 꾸며졌습니다. 즉 주요 부품이 모두 수랭 쿨링 방식이 적용되어 낮은 온도를 통해 누설 전류를 최소화하고 안정적인 고성능을 내어주는 데 힘을 실어주게 됩니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___483161903.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553863522_4526.jpg" style="max-width:100%; height:auto;"> CPU 온도부터 짚어보겠습니다. 시네벤치보다 더 높은 부하율을 자랑하는 블렌더(Blender) 렌더링 작업 시의 온도를 기준으로 합니다. 일반적인 CPU 작업 환경을 고려하면 가장 높은 수준의 부하로 생각해도 무리가 없을 겁니다. 공랭 쿨링에서는 71도, 수랭 쿨링에서는 51도를 기록했습니다. 상당히 양호한 수치죠. 커스텀 수랭이 워낙 강력해서 그렇지 사실 공랭 쿨링도 문제는 없는 수준입니다. 다만, 커스텀 수랭의 위력을 고려해보면 오버클러킹의 유혹이 강렬하게 심장을 때립니다.  그리고 GPU를 살펴보도록 하죠. 그래픽카드가 4개니까 GPU도 4개입니다. 각 GPU는 공랭과 수랭으로 나누어 온도를 표기했는데요. 블로워팬 타입의 공랭 버전은 84~86도로 일반적인 블로워팬 타입의 공랭 쿨러가 보여주는 GPU 온도와 크게 다를 바 없습니다. 하지만 수랭 쿨링이 적용되면 완전히 다른 차원의 GPU 온도를 확인하실 수 있습니다. GPU LOAD를 거의 한계까지 뽑아내는 옥테인벤치 테스트 시 50도가 채 되지 않는 수준으로 GPU 온도를 억제하는 모습입니다. GPU 별로 조금씩 온도 차이가 발생하기는 하지만, 큰 차이는 아니죠. 비교적 균일하게 고성능의 쿨링 능력을 확인시켜 주고 있습니다. 또한, 수랭 버전의 경우 팩토리 오버클록까지 적용되어 실제 부스트 클록이 2,0 GHz를 상회한다는 것을 고려해보면 상당히 놀라운 성능이라 할 수 있겠네요.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___932639029.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553860579_132.jpg" style="max-width:100%; height:auto;"> ▲ 말해봐야 입만 아픈 커스텀 수랭의 발열 해소 능력    <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___1077092571.jpg" title="81e86c587cbee9b42cb2046c96725abc_1553773927_6462.jpg" style="max-width:100%; height:auto;"> 네, 그리고 소비전력 측정 결과입니다. 이렇게 최강의 부품들이 모여 최상의 성능을 발휘하지만, 그만큼 전기도 많이 퍼먹게 됩니다. 결과를 보면 풀로드 시 1,000 W는 아주 우습게 돌파하는 것을 확인할 수 있죠. 그리고 수랭 버전이 더 높은 소비전력을 보이는 것에 의아해하실 수 있는데요. 일반적으로 같은 환경에서는 반도체 온도가 낮을수록 누설 전류도 줄어들어 더 낮은 소비전력을 보이는 것이 맞습니다. 하지만 영재컴퓨터 시스템의 경우 쿨링 부품 구성도 다르고, 수랭 시스템의 그래픽카드는 더 높은 클록 주파수와 전압이 인가된다는 특징이 있습니다. 따라서 강력한 쿨링의 이점으로 인한 소비전력 절감 효과보다 높아진 성능으로 인해 수반되는 소비전력 상승치가 더 큽니다. 실제로 수랭 시스템의 성능이 더 높기 때문에 납득 가능한 부분이죠. 또한, 이러한 특징은 일반 시스템에도 동일하게 적용됩니다. 자신이 사용하고 있는 그래픽카드가 레퍼런스 설계 혹은 제조사가 설계한 쿨러 그대로 사용하다가 커스텀 수랭으로 바꾸게 되면, GPU 클록과 전압이 상승하여 기존보다 더 높은 소비전력을 보일 수 있다는 뜻입니다. 즉 GPU 부스트 알고리즘이 적용된 최신 그래픽카드는 쿨링 성능이 좋아지면 오히려 소비전력과 함께 시스템 총 발열량이 소폭 증가할 수 있습니다. 그러나 강력한 쿨링 능력을 바탕으로 GPU 온도는 더 낮아지기 때문에 안정적인 성능 발휘 면에서 좋습니다.        </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___701714118.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553863165_7584.jpg" style="max-width:100%; height:auto;"> <table align="center" class="__se_tbl" border="0" cellspacing="0" cellpadding="1" attr_no_border_tbl="1" style="text-align: justify;"><tbody><tr><td class="" style="width: 800px; height: 5px;"> 영재컴퓨터 RTX 2080 Ti x4 커스텀 수랭 PC 총평 기존에 영재컴퓨터의 괴물같은 시스템을 몇 번 다뤄봤지만, 그 중에서도 오늘 살펴본 시스템이 개인적인 기준에서 가장 완성도가 높은 것으로 판단됩니다. 부품 구성과 콘셉트로 보건대 선택과 집중이라고 해야 할까요? 먼저 마더보드에 꽉 들어차 있는 16GB 메모리 8개로 구성된 128GB 메모리, 최상위 데스크톱 프로세서인 i9-9980XE 그리고 최상위 게이밍 그래픽카드인 RTX 2080 Ti x4 등 콘셉트가 확실합니다. 즉 서버 용도보다는 일반 사용자 환경에서 다방면으로 작업 성능을 끌어낼 수 있도록 만든 꿈의 딥러닝/연산/렌더링 머신으로 정의할 수 있습니다. 하나하나 다 탐이 나는 최상의 부품들로 꾸며져 있는 것이 이를 방증하고 또 성능 테스트 결과에서도 부품 구성에 걸맞은 수준을 보여주었습니다.  <img src="https://img2.quasarzone.co.kr/img/data/img/editor/1903/1903___383708160.jpg" title="7942afa1dfc80e95f046b04ae1c38cdb_1553861476_1333.jpg" style="max-width:100%; height:auto;"> 여기에 더해 커스텀 수랭 구성이 보여줄 수 있는 이점도 확실히 보여주었고요. 팩토리 오버클록까지 적용된 4개의 RTX 2080 Ti 풀로드 온도가 50도 이하로 발열이 억제되는 놀라움도 선사해주었습니다. 케플러 아키텍처 이후 최근의 부스트 기능이 적용된 그래픽카드는 쿨링 성능이 좋으면, 단순히 낮은 온도로 인해 확보할 수 있는 장점뿐만 아니라 부스트 클록이 더 높게 적용되는 특징이 있죠. 따라서 안정적인 고성능을 내어주는 데도 도움을 줍니다. 현재, 영재컴퓨터는 게임용 PC 외에도 이렇게 전문가용 PC도 다양한 사양으로 설루션을 마련해놓고 있는데요. 앞으로 또 어떤 충격적인 제품을 선보일지 기대가 됩니다. 이상, 퀘이사존벤치였습니다.        </td></tr></tbody></table><img src="https://img2.quasarzone.co.kr/img/data/editor/1802/5865adf4aba1555eb76679ed1c3853e9_1519205276_3676.png" title="5865adf4aba1555eb76679ed1c3853e9_1519205276_3676.png" style="text-align: center; max-width: 100%; height: auto;">  <div align="center" style="text-align: center;"> 퀘이사존의 저작물은 <a href="https://creativecommons.org/licenses/by-nc-nd/4.0/" target="_self">크리에이티브 커먼즈 저작자표시-비영리-변경금지 4.0 국제 라이선스</a>에 따라 이용할 수 있습니다.  </div>