1. 공식 마케팅 활동이 아닌 무허가 바이럴 마케팅 활동 적발 시 즉각 회원 권한 박탈 및 닉네임 공개
  2. 저작권법에 따라 대한민국 언론/매체/커뮤니티 기사 일부/전문 게재 금지하며 오직 URL 링크만 허용
  3. 개인 유튜브 채널, 방송 등 홍보성/수익성 유튜브 영상 업로드 금지
  4. 원문이 존재하는 기사의 경우 제목/내용에 대한 고의적 날조 또는 가치판단이 포함된 사견 금지

Intel Nervana NNP-T 철저 분석: 270억 트랜지스터, 32GB HBM2

퀘이사존지름 3 933 1

1908obj___1888138032.png

Intel은 Hot Chips 31에서 크게 기대되는 Spring Crest Deep Learning Accelerator에 대한 세부 정보를 공개했습니다. NNP-T(Nervana Neural Network Processor for Training)는 24개의 프로세싱 코어와 32GB의 HBM2 메모리로 구동되는 새로운 데이터 이동을 지원합니다. 270억 개의 넓은 트랜지스터는 688mm2 다이(die)에 걸쳐 펼쳐져 있습니다. 이상하게도 NNP-T에는 Intel과 경쟁하는 TSMC의 첨단 기술도 통합되어 있습니다.


인공 지능과 머신 러닝은 데이터 센터를 급격하게 끌어올려 매우 짧은 기간에 컴퓨팅을 사용하고 배포하는 방법을 재정의했습니다. 이와 같이 슈퍼 컴퓨팅 공간에서 AI 러닝 워크로드를 위한 오랜 설루션인 GPU의 등장은 폭발적이었습니다. 2008년 한 대의 슈퍼컴퓨터가 GPU를 계산에 사용하지 않고 실제로 CPU에 의존했지만 현재 500대 슈퍼컴퓨터의 컴퓨팅 성능의 80%는 GPU에서 나옵니다. 우리가 여러 번 보았듯이 HPC 및 슈퍼 컴퓨팅의 추세는 더 넓은 데이터 센터로 필터링 되므로 AI / ML 워크로드의 확산은 각 GPU가 여러 Xeon 프로세서를 대체함에 따라 인텔의 데이터 센터 지배력에 위협이 됩니다.


이에 대응하여 인텔은 다각적인 접근 방식을 개발했습니다. 계산량이 많은 트레이닝 워크로드는 객체인식, 음성 변환 및 음성 합성 워크로드를 실행하는 복잡한 신경망을 생성하여 경량 추론 코드로 배포합니다. 유비쿼터스로 인해 Xeon 프로세서는 계산량이 적은 추론 워크로드를 위한 플랫폼으로 계속 선택되고 있지만 인텔은 엔비디아 GPU의 기반이 되는 트레이닝 워크로드를 해결할 수 있는 몇 가지 설루션을 개발하고 있습니다.


엔비디아는 GPU가 모든 형태의 AI 및 머신 러닝을 위한 최후의 설루션이라고 주장하지만 인텔은 각 워크로드 클래스마다 다른 설루션이 있다고 주장합니다. 트레이닝에 대한 인텔의 답변 중 일부는 곧 출시될 Xe 그래픽 아키텍처 및 Altera 파생 FPGA의 형태로 제공될 예정이지만 이 회사는 또한 트레이닝 워크로드를 위해 새로운 맞춤형 Nervana 실리콘 라인을 보유하고 있습니다.


1908obj___1582607379.png
1908obj___367079548.png

Spring Crest Deep Learning Accelerator(또는 Intel Nervana Neural Network Processor for Training(NNP-T)로 알려진 Spring Crest Deep Learning Accelerator를 입력합니다. 이제 NNP-T라고 표기하겠습니다.


이 새로운 액셀러레이터는 인텔이 Nervana를 인수 한 결과로 제공되며 기본 워크로드 트레이닝에 맞게 기본 칩 아키텍처를 근본적으로 재고합니다. 더 중요한 것은 Nervana 아키텍처는 설계를 기반으로 하는 랙 스케일 아키텍처가 미래 방향이 될 수 있을 정도로 워크로드를 여러 카드, 심지어 여러 섀시로 확장할 수 있도록 조정된 것입니다. 신경망의 계속 확장되는 크기와 복잡성으로 인해 데이터 센터 설계자들은 섀시를 첫 번째 측정 단위인 기존의 단일 패러다임과는 대조적으로 섀시를 첫 번째 컴퓨팅 측정 단위로 생각하기 때문에 이 디자인 철학은 중요합니다.


NNP-T SoC 아키텍처

여기서 인텔은 이러한 과제에 대한 최선의 접근 방식을 취하고 있습니다. 688mm2 NNP-T 다이는 TSMC의 16nm CLN16FF+ 공정에서 제조되었습니다. 인텔 프로세서에서 TSMC 프로세스를 보는 것은 다소 반 직관적이지만, Nervana는 인텔이 인수하기 전에 TSMC의 28nm 프로세서에서 1세대 Lake Crest 디자인을 이미 테이핑하고 설계 규칙과 TSMC의 IP를 계속 사용했습니다. 현 세대 Spring Crest 제품으로의 전환 속도를 높이는 것이 좋습니다. 인텔은 또한 차세대 모델을 위해 TSMC를 고수하지만 전력 제어 및 왜곡 기술과 같은 자체 IP를 아키텍처에 통합하여 "Intel의 최고 및 Nervana의 최고"라는 용어를 만들 것입니다.


1908obj___1848860775.png

이 설계에는 TSMC의 최신 기술이 많이 사용됩니다. NNP-T 다이에는 8GB HBM2-2400 스택 4개(핀당 2.4GB/s)가 배치되어 있으며, 모두 1200mm2 실리콘 인터포저 위에 장착됩니다. 다이와 HBM 스택은 TSMC의 CoWoS(Chip-On-Wafer-On-Substrate) 인터커넥트를 통해 연결되며, 마이크로 범프를 사용하여 다이스를 패시브 실리콘 인터포저에 연결하는 멀티칩 패키징 기법이며, 그런 다음 실리콘 인터포저(TSV)를 통해 패키징 기질에 결합됩니다. 결과는 3325핀 BGA 인터페이스를 가진 60x60mm 패키지입니다(소켓 프로세서가 아님을 의미).


1908obj___1462937231.png

이것은 인터포저가 수동적이기 때문에 2.5D 패키징 기술로 분류되며 액티브 인터 포저 (기본 다이의 액티브 로직)를 사용하는 유사한 디자인은 3D 패키징의 정의에 해당합니다. 한편, 개별 HBM2 스택은 진정한 3D 구현 (4Hi)입니다. TSMC의 CoWoS는 패키지 기판에 내장된 실리콘 브리지를 사용하는 인텔 자체 EMIB (Embedded Multi-die Interconnect Bridge) 패키징과 경쟁합니다.


4개의 HBM2 스택을 완전히 활용하려면 28 GB/s (3.58Tbps 집계)를 지원하는 64개의 SerDes 레인이 필요했습니다. 이러한 레인은 HBM PHY / 메모리 컨트롤러를 다이에 공급한 다음 데이터를 270억 개의 트랜지스터 다이에 있는 24개의 TPC (Tensor Processor)에 라우팅 합니다. TCP에는 또한 다이 전체에 분산된 60MB의 SRAM이 있습니다. 16레인의 PCIe Gen 4.0과 함께 IPMI 처리, I2C 등과 같은 관리 CPU 및 인터페이스 전용의 일부 다이 영역도 있습니다.


1908obj___361450455.png

이 칩은 1.1GHz에서 작동하며 공랭식 구성에서 150 ~ 250W를 소비하며, 향후 수랭식으로 더 많은 성능을 발휘할 수 있습니다. NNP-T는 향상된 냉각 및 연결 기능 (여기서는 카드 뒷면의 QFSP 네트워킹 포트라고 함)으로 인해 OAM (OCP Accelerator Module) 메 자닌 카드 폼 팩터 (현재 하이브리드 큐브 메시)로 제공됩니다. OCP 카드는 하이퍼 스케일 데이터 센터에서 급격한 증가를 겪고 있지만 NNP-T는 전통적인 PCIe 카드 폼팩터도 지원합니다.


데이터 입력, 데이터 출력

이러한 엄청난 메모리 처리량에 액세스한다고 해서 반드시 항상 데이터를 사용해야 한다는 의미는 아닙니다. 데이터 이동이 일반적으로 소비되는 전력 및 순회에 걸리는 시간 측면에서 계산보다 비용이 많이 들기 때문입니다. 따라서 데이터 이동을 최소화하는 것이 Nervana 아키텍처의 핵심 요소입니다.





1908obj___1062935056.png
1908obj___80289825.png
1908obj___533010320.png

Tensor Processing Cores로 다이빙하면 동시에 읽고 쓸 수 있는 듀얼 포트 메모리 뱅크 몇 개와 메모리에서 데이터를 읽고 컨볼루션 필터로 변환하여 행렬 곱셈을 수행할 수 있는 Convolution Engine이 있습니다. 계산은 빨간색 블록으로 이루어지며 복합 파이프라인은 곱하기 전에 사전 작업을 지원한 다음 최종 제품에 대한 여러 작업을 지원합니다. 엔진은 또한 동시에 두 가지 작업을 출력하여 사전 작업과 사후 작업을 동시에 제공합니다. 따라서 컴퓨팅 파이프라인을 통한 연속적인 데이터 이동 필요성이 최소화됩니다. 인텔은 또한 소형 마이크로 컨트롤러 (uController)를 제어 경로에 직접 주입하여 맞춤형 명령이 마이크로 컨트롤러의 서브루틴을 트리거 하여 특정 작업을 수행할 수 있도록 합니다.


각 TPC에는 4개의 고속 버스가 있으며 2개는 HBM2 메모리 전용이며 다른 2 개는 다른 TPC와의 통신을 처리합니다.


TPC에 60MB의 SRAM이 분산되어 있습니다. TPC는 온 다이 네트워크에 연결되어 있으며 TPC 간에 데이터 이동을 허용하고 HBM2 메모리 하위 시스템에 액세스하지 않고도 다이에서 데이터를 이동할 수 있는 별도의 버스가 있는 양방향 2D 메시 아키텍처로 구성되어 있습니다. 이는 작업 당 HBM에 여러 번 액세스해야 하는 읽기-무거운 신경망의 공통 혼잡 지점을 완화시켜 코어가 완전히 활용되는 것을 막는 메모리 병목 현상을 일으 킵니다.


인텔은 다이와의 엄청난 대역폭 (2.6Tbps 총 단면 대역폭)을 제공하는 네트워킹 구성표에 많은 다이를 사용합니다. 메시 아키텍처에는 제어, 메모리, 다이-투-다이 및 클러스터-클러스터 통신 (컬러 화살표로 표시)을 위한 서로 다른 네트워크가 있습니다. 이러한 유형의 복잡한 네트워킹에는 처리량을 최대화하고 혼잡을 피하기 위해 정교한 라우팅 및 QoS (서비스 품질) 제어가 필요합니다. 당연히, 많은 Nervana의 직원들은 네트워킹 기술에 대한 깊은 배경지식을 가지고 있으며, 이는 직접 소프트웨어 제어 송수신 아키텍처를 만드는 데 도움이 되었습니다.




원시 컴퓨팅 파워

1908obj___1957329597.png
1908obj___1739036746.png
1908obj___1238967349.png
1908obj___1183588340.png

하루가 끝나면 메모리 및 네트워크 하위 시스템의 성능을 최대화하면 데이터가 많은 텐서 워크로드 중에 코어를 완전히 활용하는 데 도움이 됩니다. 여기서 우리는 NNP-T의 컴퓨팅 코어를 확대합니다. 이 중 2개는 각 TPC 내부에 있습니다. 컴퓨팅 코어는 다른 모든 주요 작업 중에서 bFloat16 매트릭스 곱, FP32 및 BF16을 지원합니다. 인텔은 메시지 크기가 작은 코어 사용 성능 데이터를 공유했습니다. 경쟁 아키텍처는 이 지표에서 어려움을 겪고 있으며 다양한 GEMM 크기의 딥러닝 워크로드에서도 단일 칩 성능을 제공하기 때문입니다. 활용도 주장은 경쟁 제품보다 훨씬 낫지만 모든 공급 업체가 제공한 벤치마크와 마찬가지로 최종 판정에 대한 타사 분석을 기다려야 합니다.


규모에 따른 성능

여러 섀시에 대형 모델을 보급해야 하며 NNP-T는 스위치 없이 섀시 간, 심지어 랙 간으로도 확장할 수 있도록 설계되었습니다. 네트워크는 매우 높은 대역폭과 낮은 대기 시간을 염두에 두고 설계되었으므로 아키텍처는 50억 또는 80억 개 이상의 매개 변수로 확장되는 대규모 모델을 처리할 수 ​​있습니다.





1908obj___1043311976.png
1908obj___567511384.png
1908obj___449321952.png

인텔은 또한 일반적인 전송 / 수신을 위한 통신 대역폭 성능 데이터를 공유했지만 섀시 내에서 다른 섀시로 선형 스케일링을 강조하기 위해 데이터 전송 간 계산이 필요한 Allreduce 및 Broadcast와의 측정도 공유했습니다.


또한 2KB의 작은 메시지 크기는 뛰어난 대기 시간 특성을 제공하고 최대 8MB의 메시지 크기로 견고하게 확장하여 다양한 메시지 크기에 대한 대기 시간 메트릭을 제공했습니다. 다시 말하지만, 이는 링크에서 시간만을 설명하는 표준 성능 측정과는 달리, 단계 간에 계산이 이루어지는 실제 워크로드에서 측정된 대기 시간입니다. 인텔은 A 스테핑 실리콘에서 이러한 테스트를 수행했으며, 최종 제품에 제공될 B 스테핑은 더 나은 성능을 제공해야 한다고 밝혔습니다.

 

이 아키텍처는 8개의 NNP-T를 사용하여 1024 개의 노드로 확장을 지원하지만, 확장과 확장은 두 가지 다른 문제입니다. 인텔은 아직 더 광범위한 확장 효율성 테스트 번호를 발표하지는 않았지만 아키텍처는 최대 256 개의 카드 이상으로 확장될 수 있다고 합니다.


프로그래밍 모델

인텔은 프레임 워크를 하드웨어 백엔드에 연결하는 오픈 소스 nGraph 라이브러리 및 컴파일러를 통해 대부분의 소프트웨어 복잡성을 추상화하는 것을 목표로 합니다. 인텔은 Paddle Paddle, Pytorch 및 TensorFlow 프레임 워크와 협력하고 있습니다.




1908obj___567615739.png
1908obj___1784654041.png

Tier 1 고객은 하드웨어에 대한 저수준 액세스 권한을 얻는 반면 '보다 폭 넓은'고객은 커널 라이브러리를 얻게 됩니다. 인텔은 내년에 고객이 자체 커널을 작성할 수 있도록 자체 고급 프로그래밍 언어를 개방할 것입니다. 복잡성은 궁극적으로 다이 면적을 소비하기 때문에 여기서 주요 목표는 단순성입니다. 결과적으로, 맞춤 ISA는 다이 영역을 승수 및 메모리에 집중시키는 것이 매우 간단합니다. 이 회사는 또한 딥 러닝 프리미티브에 대한 독점 지침을 제공합니다.


Nervana NNP-T 선적일

인텔은 올해 말까지 1단계 클라우드 서비스 제공 업체에 중점을 두고 NNP-T를 최첨단 고객에게 샘플링하고 2020 년까지 시장을 확대할 것이라고 밝혔습니다. 이미 B-스텝핑 실리콘을 보유하고 있으며, 이 제품은 최종 제품으로 배송되며 실험실에서 작동하며 향후 4개월 동안 더 많은 업데이트가 필요할 것으로 예상됩니다.


원문 출처 tomshardware




페이스북에 공유 트위터에 공유 구글플러스에 공유 카카오스토리에 공유 네이버밴드에 공유 신고

작성자

현재 레벨 : 외계인 퀘이사존지름  최고관리자
89,361 (64.5%)

1901___1275888877.gif

    댓글 : 3
쿄애니신자  
32기가 HBM 메모리 ㄷㄷㄷㄷ,,,
북극여우  
소비자용 제품 정보도 빨리좀 나왔으면 좋겠네요
decelerate…  
Hbm이 이렇다면 점점 인텔글카도 궁금증이 높아지네요
분류 제목
페이스북에 공유 트위터에 공유 구글플러스에 공유 카카오스토리에 공유 네이버밴드에 공유