差分

ナビゲーションに移動 検索に移動
編集の要約なし
1,040行目: 1,040行目:  
=== LPO ===
 
=== LPO ===
 
[https://www.fibermall.com/ja/blog/what-is-lpo-optical-module.htm LPO光トランシーバモジュールとは何ですか?]
 
[https://www.fibermall.com/ja/blog/what-is-lpo-optical-module.htm LPO光トランシーバモジュールとは何ですか?]
 +
 +
== AI / ML ==
 +
2023 年に yuyarin さんが MPLS Japan で書いたドキュメントが詳しい。
 +
 +
[https://mpls.jp/2023/presentations/mpls2023-yuyarin.pdf LLMとGPUとネットワーク]
 +
 +
=== NVIDIA ===
 +
 +
==== Tesla ====
 +
 +
==== GPU 間通信 ====
 +
 +
===== GPU Direct v2 =====
 +
 +
* PCIe 経由で GPU 間の直接通信を行う
 +
 +
===== NVLink =====
 +
 +
* GPU 間を直接接続する
 +
 +
===== NVSwitch =====
 +
 +
* 2 つより多い GPU を接続するときに使用する
 +
 +
===== GPU Direct v3 - RDMA (Remote Direct Memory Access) =====
 +
 +
* Infiniband 経由で GPU 間通信を行う
 +
* 別ホストのメモリに直接データ送信
 +
 +
==== DGX ====
 +
 +
* GPUサーバアプライアンス
 +
* CPU、OS (DGX OS)、8-GPU HGX、ConnectXがバンドル <ref>[https://mpls.jp/2023/presentations/mpls2023-yuyarin.pdf NVIDIA DGX]
 +
 +
● NVIDIAが提供するGPUサーバアプライアンス
 +
 +
● CPU、OS (DGX OS)、8-GPU HGX、ConnectXがバンドルされている
 +
 +
● A100 80GBが8枚のDGX A100と、H100が8枚のDGX H100がある</ref>
 +
 +
==== [https://images.nvidia.com/aem-dam/Solutions/Data-Center/gated-resources/nvidia-dgx-superpod-a100.pdf DGX SuperPOD] ====
 +
 +
* DGX をクラスタにしたもの
 +
 +
=== Inifiniband 系 ===
 +
 +
==== Rail-optimized Topology / Full Bisection Bandwidth ====
 +
[https://developer.nvidia.com/blog/doubling-all2all-performance-with-nvidia-collective-communication-library-2-12/ Rail Optimized Topology]
 +
 +
==== NVIDIA Spectrum イーサネット ネットワーク プラットフォーム ====
 +
 +
* CyberAgent で [https://www.janog.gr.jp/meeting/janog52/wp-content/uploads/2023/06/janog52-aiml400-uchida-koshoji.pdf 400G の事例] あり
 +
 +
=== Ethernet 系 ===
 +
Ethernet はベスト エフォートが基本だが、Inifiiniband のようなロスレスやアダプティブ ルーティングを実装する必要がある。
 +
 +
AI / ML 基盤を複数テナントに提供する仕組みを作りたい場合、EVPN-VXLAN の L2VPN でテナントを分離するのが良さそう。
 +
 +
==== Cisco Nexus 9000 ====
 +
 +
* Preferred Networks で[https://www.cisco.com/c/ja_jp/about/case-studies-customer-success-stories/2159-preferred.html 事例] あり
 +
 +
==== RDMA ====
 +
 +
===== RoCEv2 (RDMA over Converged Ethernet) =====
 +
 +
* ETS (Enhanced Transmission Selection) / PFC (Priority Flow Control) / ECN (Explicit Congestion Notification)
 +
 +
==== Ultra Ethernet ====
 +
 +
* Cisco / Arista / Intel / Broadcom などが参画する、コンソーシアムが 2023 年に設立された
 +
* RoCE を Ultra Ethernet Transport に置き換えることを目指す
 +
 +
==== Scheduled Fabric ====
 +
 +
* Arista が提唱
 +
* TIP の DDBR と同じように、Leaf (Jericho) をラインカード、Spine (Ramon) をファブリックに見立てて、セルベースでスイッチングを行う
 +
* Cisco も Silicon One でやりそう
 +
 +
==== Dragonfly+トポロジー ====
    
== IANA (Internet Assigned Numbers Authority) ==
 
== IANA (Internet Assigned Numbers Authority) ==

案内メニュー