RDMA (InfiniBand & RoCEv2)¶
⚡
RDMA (InfiniBand & RoCEv2)
InfiniBand & RoCEv2, QP/MR, DV 전략
🎯 학습 목표¶
- Explain RDMA 가 왜 만들어졌고 — kernel bypass / zero-copy / OS bypass — 가 어떤 의미인지 설명할 수 있다.
- Diagram InfiniBand 패킷 스택 (LRH/GRH/BTH/Payload/ICRC/VCRC) 과 RoCEv2 매핑 (Eth/IP/UDP/BTH) 을 그릴 수 있다.
- Trace QP FSM (Reset → Init → RTR → RTS → SQD/SQErr/Err) 과 PSN/ACK/NAK/Retry 흐름을 추적할 수 있다.
- Apply Verbs API (Memory Registration, Post Send/Recv, Poll CQ) 를 시나리오에 맞춰 사용할 수 있다.
- Evaluate PFC/ECN/DCQCN 기반 Congestion Control 과 Local ACK timeout/RNR/R-Key error 의 처리 전략을 평가할 수 있다.
- Plan RDMA 검증 환경(
vrdmatb) 의 환경/agent/scoreboard 구조를 기반으로 vplan + coverage 전략을 설계할 수 있다.
📋 사전 지식¶
- TCP/IP 와 Ethernet 기본
- DMA, PCIe 기본 (memory-mapped IO)
- UVM 1.2 / SystemVerilog / VCS / mrun (DV 모듈 한정)
🗺️ 개념 맵¶
개념 의존성 — 순서대로 학습 권장
각 노드 = 모듈 (클릭하여 이동) · 화살표(→) = 선수 지식 흐름
📚 학습 모듈¶
01
RDMA 동기와 핵심 모델
02
InfiniBand 프로토콜 스택
03
RoCEv2: Ethernet 위의 RDMA
04
Service Types & QP FSM
05
Memory Model: PD, MR, L_Key/R_Key, IOVA
06
Data Path Operations
07
Congestion Control & Error Handling
08
RDMA-TB 검증 환경 & DV 전략
10
Ultraethernet (UEC)
11
GPUBoost / RDMA-IP HW Architecture
12
FPGA Prototyping & Lab Manuals
13
Background & Industry Research
★
Quick Reference Card
📖 참조 자료¶
- InfiniBand Architecture Specification, Volume 1, Release 1.7 — IBTA, 2023-07-11
- Annex A17: RoCEv2 — RDMA over Converged Ethernet v2 — IBTA
RDMA-TB/— 사내 RDMA 2.0 verification environmentPROTOCOL_RULES.md— IB Spec 1.7 must-rule 카탈로그 (1079개 규칙)ROCEV2_RULE_APPLICABILITY.md— IB 규칙의 RoCEv2 적용 여부 분류