「2023-07-05-7 JANOG52 参加レポート」の版間の差分

提供:hkatou_Lab
編集の要約なし
381行目: 381行目:


=== [https://www.janog.gr.jp/meeting/janog52/aiml400/ AI/ML基盤の400G DCネットワークを構築した話] ===
=== [https://www.janog.gr.jp/meeting/janog52/aiml400/ AI/ML基盤の400G DCネットワークを構築した話] ===
[https://www.janog.gr.jp/meeting/janog52/wp-content/uploads/2023/06/janog52-aiml400-uchida-koshoji.pdf PDF]
AI/ML 基盤のために GPU サーバと 400G スイッチを導入するお話でした。
* Infiniband の知見が少なく、Ethernet に安心感があった
* 要件の異なる Lossless NW / Lossy NW で 2 つの NW を構築・分離
** RoCEv2 Lossless Ethernet - サーバ間のインターコネクト (相互接続・RDMA)
** Lossy Ethernet - Storage , L3SW , FW/LB


==== RoCEv2 ====
==== RoCEv2 ====
Inifiniband の知識が必須で、QoS チューニングが大変
Inifiniband の知識が必須で、QoS チューニングが大変


RoCEv2 Lossless Ethernet
200GE の輻輳ポイントを作成し、動作確認
 
Lossless Ethernet


Lossless NW / Lossy NW を分離
* PFC (Priority Flow Control)
* ECN (Explicit Congestion Notification)
* ETS (Enhanced Transmission Selection)


==== BGP ====
==== BGP ====
BGP Unnumbered P2P
BGP Unnumbered P2P


BGP Graceful shutdown コミュニティで、メンテナンス時はトラフィックを迂回させる
Lossless Ethernet では BGP Graceful shutdown コミュニティを使い、メンテナンス時はトラフィックを迂回させる
 
LAG なし、Adaptive Routing で偏りなしに


==== トランシーバ ====
==== トランシーバ ====