「2023-07-05-7 JANOG52 参加レポート」の版間の差分
提供:hkatou_Lab
編集の要約なし |
|||
381行目: | 381行目: | ||
=== [https://www.janog.gr.jp/meeting/janog52/aiml400/ AI/ML基盤の400G DCネットワークを構築した話] === | === [https://www.janog.gr.jp/meeting/janog52/aiml400/ AI/ML基盤の400G DCネットワークを構築した話] === | ||
[https://www.janog.gr.jp/meeting/janog52/wp-content/uploads/2023/06/janog52-aiml400-uchida-koshoji.pdf PDF] | |||
AI/ML 基盤のために GPU サーバと 400G スイッチを導入するお話でした。 | |||
* Infiniband の知見が少なく、Ethernet に安心感があった | |||
* 要件の異なる Lossless NW / Lossy NW で 2 つの NW を構築・分離 | |||
** RoCEv2 Lossless Ethernet - サーバ間のインターコネクト (相互接続・RDMA) | |||
** Lossy Ethernet - Storage , L3SW , FW/LB | |||
==== RoCEv2 ==== | ==== RoCEv2 ==== | ||
Inifiniband の知識が必須で、QoS チューニングが大変 | Inifiniband の知識が必須で、QoS チューニングが大変 | ||
200GE の輻輳ポイントを作成し、動作確認 | |||
Lossless Ethernet | |||
* PFC (Priority Flow Control) | |||
* ECN (Explicit Congestion Notification) | |||
* ETS (Enhanced Transmission Selection) | |||
==== BGP ==== | ==== BGP ==== | ||
BGP Unnumbered P2P | BGP Unnumbered P2P | ||
BGP Graceful shutdown | Lossless Ethernet では BGP Graceful shutdown コミュニティを使い、メンテナンス時はトラフィックを迂回させる | ||
LAG なし、Adaptive Routing で偏りなしに | |||
==== トランシーバ ==== | ==== トランシーバ ==== |