「2024-07-03-05 JANOG54 参加レポート」の版間の差分

提供: hkatou_Lab
ナビゲーションに移動 検索に移動
90行目: 90行目:
  
 
=== 騒音対策 ===
 
=== 騒音対策 ===
人間が会話できる場所ではなくなった
+
'''「人間が会話できる場所ではなくなった」'''
  
 
* イヤーマフでガード + インカムで会話
 
* イヤーマフでガード + インカムで会話
146行目: 146行目:
  
 
==== 光配線 ====
 
==== 光配線 ====
MPO-16 パッチパネルの敷設が難しい
 
  
 +
===== MPO-16 パッチパネルの敷設が難しい =====
 
* 80G だと当面は必要に
 
* 80G だと当面は必要に
 
* MMF/MPO なら Low-Loss タイプが良い
 
* MMF/MPO なら Low-Loss タイプが良い
  
 
+
=====  400G : 400G-DR4 が無難そう、LC 2 芯 400G-FR4 はありかも =====
400G : 400G-DR4 が無難そう、LC 2 芯 400G-FR4 はありかも
 
 
 
 
* MPO はやはり使いづらい
 
* MPO はやはり使いづらい
  
163行目: 161行目:
  
 
=== トラブルシューティング ===
 
=== トラブルシューティング ===
1 分だけリンクアップ、その後リンクダウン
 
  
 +
==== 1 分だけリンクアップ、その後リンクダウン ====
 
* OIR しても一緒
 
* OIR しても一緒
 
* 交換で OK
 
* 交換で OK
  
 
+
====  クリーナーでトランシーバの MPO の爪を破損させてしまった ====
クリーナーでトランシーバの MPO の爪を破損させてしまった
 
 
 
 
* 再発防止をどうしよう
 
* 再発防止をどうしよう
 
* 500 回見直しつらい
 
* 500 回見直しつらい
182行目: 178行目:
 
メーカーによって品質に差があることが、NTT-AT 様の協力の元判明した
 
メーカーによって品質に差があることが、NTT-AT 様の協力の元判明した
  
 +
=== 議論 ===
 +
 +
==== シャーシ型スイッチは 1 台のみか ? ====
 +
 +
* 各コンポーネントは !+! or N+1 で冗長されているため、大きな問題はないと考えている
 +
** スーパーバイザ
 +
** ラインカード
 +
*** モジュールわけ分散収容
 +
** ファブリック モジュール
 +
** 電源
 +
* シャーシには基板が搭載されていないため、シャーシが破損する危険性は低いと判断している
 +
 +
==== スイッチの Verup はどうする ? ====
 +
 +
* 全断で対応予定
 +
 +
==== シャーシ型スイッチを増やすような対応は可能か ? ====
 +
 +
* 現状はシャーシ型を採用したメリットが無くなってしまうため、営業にがんばってもらうw
 +
* シャーシ間のインターコネクトは本数が多すぎるため、考えていない
  
 
[[カテゴリ:イベント]]
 
[[カテゴリ:イベント]]

2024年7月4日 (木) 11:17時点における版

キーワードをこのレポートにメモったので、今後見直して反芻していきたい。

Day1

バックボーンネットワークエンジニアがL3プロトコルを使ってL2リングを作り変えた話 ~ついでに400G-ZRでWDMレスで長距離飛ばしちゃったよ~

資料

WDM + L2 Ring スイッチから、400G-ZR + EVPN 対応スイッチにリプレースした話。

リングプロトコルの課題

L2 ループこわい

  • 設定ミス
  • バグ

トラフィック エンジニアリングが難しい

独自プロトコルなので選択肢が少ない

  • リプレースしづらい / 足元を見られる

EVPN / VXLAN を採用

実績が豊富

標準化されている

  • 価格競争が働きやすい
  • CNCi でも BGP を運用している

EVPN 設計

IPv6 LLA はなし

  • traceroute が効かなかった
    • (Slack から) v4 Loopback があれば出るはず

BGP Additinal Path を有効化

  • バックアップ パスを見られるようにしたかった

今後の課題

マルチキャストをどうしよう

  • EVPN の Head End Replication で複製はされるが・・・

EVPN All Active Multi Homing で MLAG 可能に

事前検証

ほとんどのコンフィグは ContainerLab で作成できた

  • 物理系のみ実機が納入されてから作成

400G-ZR

WDM がなくなった分低コスト化

IPアドレスの管理・分配の世界を覗いてみよう !! ~ インターネットを維持するために、とっても大切なこと ~

資料1 資料2

APNIC でポリシーが変わると、下部組織である JPNIC のポリシーも影響を受けるため、確認したほうが良い

Day2

生成AI向けパブリッククラウドサービスをつくってみた話

資料

スペック

NVIDIA H100 : GPU 2000+

200G x4 or 400G x4

2E Flops+

GPU サーバの構築

2 週間、30 人/日、200 台

  • 開墾だけで半日

消費電力

データシートの最大値で見る

ラック単体で電力設計、サーバルーム全体でも電力設計

クラスタを組んでいると複数 GPU サーバで電力負荷が増加

冷却能力

コールドアイルとホットアイルで分離

排熱量が大きいラックの周囲には何も置けないことも

水冷式やファン付きラック扉を検討予定

騒音対策

「人間が会話できる場所ではなくなった」

  • イヤーマフでガード + インカムで会話
  • 6 ヶ月に一回聴覚検査をしなければならない

設計

シンプル・マルチテナンシー・公平

スイッチ

Arista Networks 7816R3 シャーシ型スイッチを採用

  • スパインスイッチ不要
  • VoQ ベースファブリック
  • セル スプレー スイッチング
    • ロスレス
    • ノンブロッキング
    • アウトオブオーダーなし

EVPN/VXLAN なし、VRF + VLAN のみでマルチテナンシーを実現可能

スイッチのラックマウント

機器をラックに設置する際に、推奨のツールがある

  • 専門の業者様に依頼

ラインカード・電源などを抜いた状態で、32U 200kg

  • ケージナットが行方不明
  • シャーシ側面の保護シート剥がし忘れ

配線設計

パッチパネルとシャーシ スイッチが 1 ラックに収まらない

スイッチは 400G -> 200G x2 Breakout

MPO-16 が使いにくい

  • ケーブルクリーナーが MPO-12 と異なる

追加整備は SMF MPO-12 配線 400GDR に変更

トランシーバ

サードパーティ トランシーバを採用

  • 200GSR4 は BER の測定結果に差があり -> BER の値が良いメーカーを採用
  • 400GDR4 は BER 測定結果にそこまで差がない

今後のトランシーバ

MMF ? SMF ?

  • MMF のほうが安価だが・・・
  • 基本的には SMF になりそう

光配線

MPO-16 パッチパネルの敷設が難しい
  • 80G だと当面は必要に
  • MMF/MPO なら Low-Loss タイプが良い
400G : 400G-DR4 が無難そう、LC 2 芯 400G-FR4 はありかも
  • MPO はやはり使いづらい

LPO 対応がちらほら見えてきた

フォームファクタは悩みそう

  • QSFP 系 ? OSFP 系 ?

トラブルシューティング

1 分だけリンクアップ、その後リンクダウン

  • OIR しても一緒
  • 交換で OK

クリーナーでトランシーバの MPO の爪を破損させてしまった

  • 再発防止をどうしよう
  • 500 回見直しつらい

MPO ケーブル品質問題

端面検査機でエラー、BER あり

  • コアディップあり
  • コアの中心が歪んでいる

メーカーによって品質に差があることが、NTT-AT 様の協力の元判明した

議論

シャーシ型スイッチは 1 台のみか ?

  • 各コンポーネントは !+! or N+1 で冗長されているため、大きな問題はないと考えている
    • スーパーバイザ
    • ラインカード
      • モジュールわけ分散収容
    • ファブリック モジュール
    • 電源
  • シャーシには基板が搭載されていないため、シャーシが破損する危険性は低いと判断している

スイッチの Verup はどうする ?

  • 全断で対応予定

シャーシ型スイッチを増やすような対応は可能か ?

  • 現状はシャーシ型を採用したメリットが無くなってしまうため、営業にがんばってもらうw
  • シャーシ間のインターコネクトは本数が多すぎるため、考えていない