1,040行目: |
1,040行目: |
| === LPO === | | === LPO === |
| [https://www.fibermall.com/ja/blog/what-is-lpo-optical-module.htm LPO光トランシーバモジュールとは何ですか?] | | [https://www.fibermall.com/ja/blog/what-is-lpo-optical-module.htm LPO光トランシーバモジュールとは何ですか?] |
| + | |
| + | == AI / ML == |
| + | 2023 年に yuyarin さんが MPLS Japan で書いたドキュメントが詳しい。 |
| + | |
| + | [https://mpls.jp/2023/presentations/mpls2023-yuyarin.pdf LLMとGPUとネットワーク] |
| + | |
| + | === NVIDIA === |
| + | |
| + | ==== Tesla ==== |
| + | |
| + | ==== GPU 間通信 ==== |
| + | |
| + | ===== GPU Direct v2 ===== |
| + | |
| + | * PCIe 経由で GPU 間の直接通信を行う |
| + | |
| + | ===== NVLink ===== |
| + | |
| + | * GPU 間を直接接続する |
| + | |
| + | ===== NVSwitch ===== |
| + | |
| + | * 2 つより多い GPU を接続するときに使用する |
| + | |
| + | ===== GPU Direct v3 - RDMA (Remote Direct Memory Access) ===== |
| + | |
| + | * Infiniband 経由で GPU 間通信を行う |
| + | * 別ホストのメモリに直接データ送信 |
| + | |
| + | ==== DGX ==== |
| + | |
| + | * GPUサーバアプライアンス |
| + | * CPU、OS (DGX OS)、8-GPU HGX、ConnectXがバンドル <ref>[https://mpls.jp/2023/presentations/mpls2023-yuyarin.pdf NVIDIA DGX] |
| + | |
| + | ● NVIDIAが提供するGPUサーバアプライアンス |
| + | |
| + | ● CPU、OS (DGX OS)、8-GPU HGX、ConnectXがバンドルされている |
| + | |
| + | ● A100 80GBが8枚のDGX A100と、H100が8枚のDGX H100がある</ref> |
| + | |
| + | ==== [https://images.nvidia.com/aem-dam/Solutions/Data-Center/gated-resources/nvidia-dgx-superpod-a100.pdf DGX SuperPOD] ==== |
| + | |
| + | * DGX をクラスタにしたもの |
| + | |
| + | === Inifiniband 系 === |
| + | |
| + | ==== Rail-optimized Topology / Full Bisection Bandwidth ==== |
| + | [https://developer.nvidia.com/blog/doubling-all2all-performance-with-nvidia-collective-communication-library-2-12/ Rail Optimized Topology] |
| + | |
| + | ==== NVIDIA Spectrum イーサネット ネットワーク プラットフォーム ==== |
| + | |
| + | * CyberAgent で [https://www.janog.gr.jp/meeting/janog52/wp-content/uploads/2023/06/janog52-aiml400-uchida-koshoji.pdf 400G の事例] あり |
| + | |
| + | === Ethernet 系 === |
| + | Ethernet はベスト エフォートが基本だが、Inifiiniband のようなロスレスやアダプティブ ルーティングを実装する必要がある。 |
| + | |
| + | AI / ML 基盤を複数テナントに提供する仕組みを作りたい場合、EVPN-VXLAN の L2VPN でテナントを分離するのが良さそう。 |
| + | |
| + | ==== Cisco Nexus 9000 ==== |
| + | |
| + | * Preferred Networks で[https://www.cisco.com/c/ja_jp/about/case-studies-customer-success-stories/2159-preferred.html 事例] あり |
| + | |
| + | ==== RDMA ==== |
| + | |
| + | ===== RoCEv2 (RDMA over Converged Ethernet) ===== |
| + | |
| + | * ETS (Enhanced Transmission Selection) / PFC (Priority Flow Control) / ECN (Explicit Congestion Notification) |
| + | |
| + | ==== Ultra Ethernet ==== |
| + | |
| + | * Cisco / Arista / Intel / Broadcom などが参画する、コンソーシアムが 2023 年に設立された |
| + | * RoCE を Ultra Ethernet Transport に置き換えることを目指す |
| + | |
| + | ==== Scheduled Fabric ==== |
| + | |
| + | * Arista が提唱 |
| + | * TIP の DDBR と同じように、Leaf (Jericho) をラインカード、Spine (Ramon) をファブリックに見立てて、セルベースでスイッチングを行う |
| + | * Cisco も Silicon One でやりそう |
| + | |
| + | ==== Dragonfly+トポロジー ==== |
| | | |
| == IANA (Internet Assigned Numbers Authority) == | | == IANA (Internet Assigned Numbers Authority) == |