「2024-07-03-05 JANOG54 参加レポート」の版間の差分

提供: hkatou_Lab
ナビゲーションに移動 検索に移動
(ページの作成:「キーワードをこのレポートにメモったので、今後見直して反芻していきたい。 = Day1 = == [https://www.janog.gr.jp/meeting/janog54/400g-zr/…」)
 
52行目: 52行目:
 
=== 400G-ZR ===
 
=== 400G-ZR ===
 
WDM がなくなった分低コスト化
 
WDM がなくなった分低コスト化
 +
 +
== [https://www.janog.gr.jp/meeting/janog54/jpopf/ IPアドレスの管理・分配の世界を覗いてみよう !! ~ インターネットを維持するために、とっても大切なこと ~] ==
 +
[https://www.janog.gr.jp/meeting/janog54/wp-content/uploads/2024/07/janog54-jpopf-%E4%B8%AD%E5%B7%9D.pdf 資料1] [https://www.janog.gr.jp/meeting/janog54/wp-content/uploads/2024/07/janog54-jpopf-%E8%B0%B7%E5%B4%8E.pdf 資料2]
 +
 +
APNIC でポリシーが変わると、下部組織である JPNIC のポリシーも影響を受けるため、確認したほうが良い
 +
 +
= Day2 =
 +
 +
== [https://www.janog.gr.jp/meeting/janog54/sakura/ 生成AI向けパブリッククラウドサービスをつくってみた話] ==
 +
[https://www.janog.gr.jp/meeting/janog54/wp-content/uploads/2024/05/janog54-sakura.pdf 資料]
 +
 +
=== スペック ===
 +
NVIDIA H100 : GPU 2000+
 +
 +
200G x4 or 400G x4
 +
 +
2E Flops+
 +
 +
=== GPU サーバの構築 ===
 +
2 週間、30 人/日、200 台
 +
 +
* 開墾だけで半日
 +
 +
=== 消費電力 ===
 +
データシートの最大値で見る
 +
 +
ラック単体で電力設計、サーバルーム全体でも電力設計
 +
 +
クラスタを組んでいると複数 GPU サーバで電力負荷が増加
 +
 +
=== 冷却能力 ===
 +
コールドアイルとホットアイルで分離
 +
 +
排熱量が大きいラックの周囲には何も置けないことも
 +
 +
水冷式やファン付きラック扉を検討予定
 +
 +
=== 騒音対策 ===
 +
人間が会話できる場所ではなくなった
 +
 +
* イヤーマフでガード + インカムで会話
 +
 +
* 6 ヶ月に一回聴覚検査をしなければならない
 +
 +
=== 設計 ===
 +
シンプル・マルチテナンシー・公平
 +
 +
=== スイッチ ===
 +
Arista Networks 7816R3 シャーシ型スイッチを採用
 +
 +
* スパインスイッチ不要
 +
* VoQ ベースファブリック
 +
* セル スプレー スイッチング
 +
** ロスレス
 +
** ノンブロッキング
 +
** アウトオブオーダーなし
 +
 +
EVPN/VXLAN なし、VRF + VLAN のみでマルチテナンシーを実現可能
 +
 +
==== スイッチのラックマウント ====
 +
機器をラックに設置する際に、推奨のツールがある
 +
 +
* 専門の業者様に依頼
 +
 +
ラインカード・電源などを抜いた状態で、32U 200kg
 +
 +
* ケージナットが行方不明
 +
* シャーシ側面の保護シート剥がし忘れ
 +
 +
=== 配線設計 ===
 +
パッチパネルとシャーシ スイッチが 1 ラックに収まらない
 +
 +
スイッチは 400G -> 200G x2 Breakout
 +
 +
MPO-16 が使いにくい
 +
 +
* ケーブルクリーナーが MPO-12 と異なる
 +
 +
追加整備は SMF MPO-12 配線 400GDR に変更
 +
 +
=== トランシーバ ===
 +
サードパーティ トランシーバを採用
 +
 +
* 200GSR4 は BER の測定結果に差があり -> BER の値が良いメーカーを採用
 +
* 400GDR4 は BER 測定結果にそこまで差がない
 +
 +
=== 今後のトランシーバ ===
 +
 +
==== MMF ? SMF ? ====
 +
 +
* MMF のほうが安価だが・・・
 +
* 基本的には SMF になりそう
 +
 +
==== 光配線 ====
 +
MPO-16 パッチパネルの敷設が難しい
 +
 +
* 80G だと当面は必要に
 +
* MMF/MPO なら Low-Loss タイプが良い
 +
 +
 +
400G : 400G-DR4 が無難そう、LC 2 芯 400G-FR4 はありかも
 +
 +
* MPO はやはり使いづらい
 +
 +
LPO 対応がちらほら見えてきた
 +
 +
フォームファクタは悩みそう
 +
 +
* QSFP 系 ? OSFP 系 ?
 +
 +
=== トラブルシューティング ===
 +
1 分だけリンクアップ、その後リンクダウン
 +
 +
* OIR しても一緒
 +
* 交換で OK
 +
 +
 +
クリーナーでトランシーバの MPO の爪を破損させてしまった
 +
 +
* 再発防止をどうしよう
 +
* 500 回見直しつらい
 +
 +
==== MPO ケーブル品質問題 ====
 +
端面検査機でエラー、BER あり
 +
 +
* コアディップあり
 +
* コアの中心が歪んでいる
 +
 +
メーカーによって品質に差があることが、NTT-AT 様の協力の元判明した
 +
 +
 +
[[カテゴリ:イベント]]

2024年7月4日 (木) 11:02時点における版

キーワードをこのレポートにメモったので、今後見直して反芻していきたい。

Day1

バックボーンネットワークエンジニアがL3プロトコルを使ってL2リングを作り変えた話 ~ついでに400G-ZRでWDMレスで長距離飛ばしちゃったよ~

資料

WDM + L2 Ring スイッチから、400G-ZR + EVPN 対応スイッチにリプレースした話。

リングプロトコルの課題

L2 ループこわい

  • 設定ミス
  • バグ

トラフィック エンジニアリングが難しい

独自プロトコルなので選択肢が少ない

  • リプレースしづらい / 足元を見られる

EVPN / VXLAN を採用

実績が豊富

標準化されている

  • 価格競争が働きやすい
  • CNCi でも BGP を運用している

EVPN 設計

IPv6 LLA はなし

  • traceroute が効かなかった
    • (Slack から) v4 Loopback があれば出るはず

BGP Additinal Path を有効化

  • バックアップ パスを見られるようにしたかった

今後の課題

マルチキャストをどうしよう

  • EVPN の Head End Replication で複製はされるが・・・

EVPN All Active Multi Homing で MLAG 可能に

事前検証

ほとんどのコンフィグは ContainerLab で作成できた

  • 物理系のみ実機が納入されてから作成

400G-ZR

WDM がなくなった分低コスト化

IPアドレスの管理・分配の世界を覗いてみよう !! ~ インターネットを維持するために、とっても大切なこと ~

資料1 資料2

APNIC でポリシーが変わると、下部組織である JPNIC のポリシーも影響を受けるため、確認したほうが良い

Day2

生成AI向けパブリッククラウドサービスをつくってみた話

資料

スペック

NVIDIA H100 : GPU 2000+

200G x4 or 400G x4

2E Flops+

GPU サーバの構築

2 週間、30 人/日、200 台

  • 開墾だけで半日

消費電力

データシートの最大値で見る

ラック単体で電力設計、サーバルーム全体でも電力設計

クラスタを組んでいると複数 GPU サーバで電力負荷が増加

冷却能力

コールドアイルとホットアイルで分離

排熱量が大きいラックの周囲には何も置けないことも

水冷式やファン付きラック扉を検討予定

騒音対策

人間が会話できる場所ではなくなった

  • イヤーマフでガード + インカムで会話
  • 6 ヶ月に一回聴覚検査をしなければならない

設計

シンプル・マルチテナンシー・公平

スイッチ

Arista Networks 7816R3 シャーシ型スイッチを採用

  • スパインスイッチ不要
  • VoQ ベースファブリック
  • セル スプレー スイッチング
    • ロスレス
    • ノンブロッキング
    • アウトオブオーダーなし

EVPN/VXLAN なし、VRF + VLAN のみでマルチテナンシーを実現可能

スイッチのラックマウント

機器をラックに設置する際に、推奨のツールがある

  • 専門の業者様に依頼

ラインカード・電源などを抜いた状態で、32U 200kg

  • ケージナットが行方不明
  • シャーシ側面の保護シート剥がし忘れ

配線設計

パッチパネルとシャーシ スイッチが 1 ラックに収まらない

スイッチは 400G -> 200G x2 Breakout

MPO-16 が使いにくい

  • ケーブルクリーナーが MPO-12 と異なる

追加整備は SMF MPO-12 配線 400GDR に変更

トランシーバ

サードパーティ トランシーバを採用

  • 200GSR4 は BER の測定結果に差があり -> BER の値が良いメーカーを採用
  • 400GDR4 は BER 測定結果にそこまで差がない

今後のトランシーバ

MMF ? SMF ?

  • MMF のほうが安価だが・・・
  • 基本的には SMF になりそう

光配線

MPO-16 パッチパネルの敷設が難しい

  • 80G だと当面は必要に
  • MMF/MPO なら Low-Loss タイプが良い


400G : 400G-DR4 が無難そう、LC 2 芯 400G-FR4 はありかも

  • MPO はやはり使いづらい

LPO 対応がちらほら見えてきた

フォームファクタは悩みそう

  • QSFP 系 ? OSFP 系 ?

トラブルシューティング

1 分だけリンクアップ、その後リンクダウン

  • OIR しても一緒
  • 交換で OK


クリーナーでトランシーバの MPO の爪を破損させてしまった

  • 再発防止をどうしよう
  • 500 回見直しつらい

MPO ケーブル品質問題

端面検査機でエラー、BER あり

  • コアディップあり
  • コアの中心が歪んでいる

メーカーによって品質に差があることが、NTT-AT 様の協力の元判明した