2024-07-03-05 JANOG54 参加レポート

提供:hkatou_Lab
2024年7月8日 (月) 16:30時点におけるHkatou (トーク | 投稿記録)による版 (→‎トランシーバ)

キーワードをこのレポートにメモったので、今後見直して反芻していきたい。

Day1

バックボーンネットワークエンジニアがL3プロトコルを使ってL2リングを作り変えた話 ~ついでに400G-ZRでWDMレスで長距離飛ばしちゃったよ~

資料

WDM + L2 Ring スイッチから、400G-ZR + EVPN 対応スイッチにリプレースした話。

リングプロトコルの課題

L2 ループこわい

  • 設定ミス
  • バグ

トラフィック エンジニアリングが難しい

独自プロトコルなので選択肢が少ない

  • リプレースしづらい / 足元を見られる

EVPN / VXLAN を採用

実績が豊富

標準化されている

  • 価格競争が働きやすい
  • CNCi でも BGP を運用している

EVPN 設計

IPv6 LLA はなし

  • traceroute が効かなかった
    • (Slack から) v4 Loopback があれば出るはず

BGP Additinal Path を有効化

  • バックアップ パスを見られるようにしたかった

今後の課題

マルチキャストをどうしよう

  • EVPN の Head End Replication で複製はされるが・・・

EVPN All Active Multi Homing で MLAG 可能に

事前検証

ほとんどのコンフィグは ContainerLab で作成できた

  • 物理系のみ実機が納入されてから作成

400G-ZR

WDM がなくなった分低コスト化

IPアドレスの管理・分配の世界を覗いてみよう !! ~ インターネットを維持するために、とっても大切なこと ~

資料1 資料2

APNIC でポリシーが変わると、下部組織である JPNIC のポリシーも影響を受けるため、確認したほうが良い

Day2

生成AI向けパブリッククラウドサービスをつくってみた話

資料

スペック

NVIDIA H100 : GPU 2000+

200G x4 or 400G x4

2E Flops+

GPU サーバの構築

2 週間、30 人/日、200 台

  • 開墾だけで半日

消費電力

データシートの最大値で見る

ラック単体で電力設計、サーバルーム全体でも電力設計

クラスタを組んでいると複数 GPU サーバで電力負荷が増加

冷却能力

コールドアイルとホットアイルで分離

排熱量が大きいラックの周囲には何も置けないことも

水冷式やファン付きラック扉を検討予定

騒音対策

「人間が会話できる場所ではなくなった」

  • イヤーマフでガード + インカムで会話
  • 6 ヶ月に一回聴覚検査をしなければならない

設計

シンプル・マルチテナンシー・公平

スイッチ

Arista Networks 7816R3 シャーシ型スイッチを採用

  • スパインスイッチ不要
  • VoQ ベースファブリック
  • セル スプレー スイッチング
    • ロスレス
    • ノンブロッキング
    • アウトオブオーダーなし

EVPN/VXLAN なし、VRF + VLAN のみでマルチテナンシーを実現可能

スイッチのラックマウント

機器をラックに設置する際に、推奨のツールがある

  • 専門の業者様に依頼

ラインカード・電源などを抜いた状態で、32U 200kg

  • ケージナットが行方不明
  • シャーシ側面の保護シート剥がし忘れ

配線設計

パッチパネルとシャーシ スイッチが 1 ラックに収まらない

スイッチは 400G -> 200G x2 Breakout

MPO-16 が使いにくい

  • ケーブルクリーナーが MPO-12 と異なる

追加整備は SMF MPO-12 配線 400GDR に変更

トランシーバ

サードパーティ トランシーバを採用

  • 200G-SR4 は BER の測定結果に差があり -> BER の値が良いメーカーを採用
  • 400G-DR4 は BER 測定結果にそこまで差がない

今後のトランシーバ

MMF ? SMF ?

  • MMF のほうが安価だが・・・
  • 基本的には SMF になりそう

光配線

MPO-16 パッチパネルの敷設が難しい
  • 800G だと当面は必要に
  • MMF/MPO なら Low-Loss タイプが良い
400G : 400G-DR4 が無難そう、LC 2 芯 400G-FR4 はありかも
  • MPO はやはり使いづらい

LPO 対応がちらほら見えてきた

フォームファクタは悩みそう

  • QSFP 系 ? OSFP 系 ?

トラブルシューティング

1 分だけリンクアップ、その後リンクダウン

  • OIR しても一緒
  • 交換で OK

クリーナーでトランシーバの MPO の爪を破損させてしまった

  • 再発防止をどうしよう
  • 500 回見直しつらい

MPO ケーブル品質問題

端面検査機でエラー、BER あり

  • コアディップあり
  • コアの中心が歪んでいる

メーカーによって品質に差があることが、NTT-AT 様の協力の元判明した

議論

シャーシ型スイッチは 1 台のみか ?

  • 1 台のみだが、各コンポーネントは 1+1 or N+1 で冗長されているため、大きな問題はないと考えている
    • スーパーバイザ
    • ラインカード
      • GPU はモジュールわけ分散収容
    • ファブリック モジュール
    • 電源
  • シャーシには基板が搭載されていないため、シャーシが破損する危険性は低いと判断している

スイッチの Verup はどうする ?

  • 全断で対応予定

シャーシ型スイッチを増やすような対応は可能か ?

  • 現状はシャーシ型を採用したメリットが無くなってしまうため、営業にがんばってもらうw
  • シャーシ間のインターコネクトは本数が多すぎるため、考えていない

LINEヤフー米国データセンタ技術の最前線:LLM(大規模言語モデル)と水冷技術への挑戦

資料

GPU サーバのファン風量が大きくなりすぎて、フロア空調機の風力が足りなくなる

水冷を検討中、方式がいろいろある

GBL200 NVL72 は 1ラック120kw のお化けマシン

電源が 480V なので、ラック近辺まで高電圧線が来るのは危険性に留意する必要がある

AIを支えるAll optical network

2030 年に 1960 E Flops を動かすために、大型火力発電所 x6 基が必要

  • 都市部集中から、再生可能エネルギーのポテンシャルがある、地方に計算リソースを分散配置

光ネットワークで低遅延・低消費電力に

ルーティングはまだまだルータで担当

ネットワーク内で光電変換不要

  • ルータに遠距離トランシーバを搭載

低遅延の効果は限定的

光伝送装置にスパコン富嶽由来の水冷「クローズドループ型水冷技術」を採用

  • 製品内にラジエータ・ポンプユニットを搭載し、外部に水冷装置の必要なし

C+L ROADM

  • ディスアグリゲーション型アーキテクチャ
  • C+L 共通部を導入し、C-Band , L-Band のサブユニットを必要時に増設可能

OpenZR+ の採用とトラブル

ベンダーロック

ベンダー名書き換えで対応

FEC モードご認識

CFEC で起動してしまい、OFEC にならない

低電力モードから起動しない

Low Power モードになったあとに起動せず、光が出ない

Low Power デフォルトのトランシーバで発生

ルータで解除コマンドが無いとどうしようもない

Slack の質問

> 他レイヤとの融合は良いと思う反面、責任の分界点が明確ではなりそうな気がしており障害時の復旧時間が延びるかと思うのですが・・・・。

ソフトバンクはサーバチーム・ネットワークチームといった、部署縦割りの弊害をなくしていく文化にしようとしている

  • エンドユーザから見れば障害はどこで起きているか関係が無い

Day3

3rd party SFP利用の光と闇

資料

Leaf-Spine IP-Clos で NW 機器 1100 台、トランシーバ 19000 本の環境で、3rd Party トランシーバを使った発表。

3rd Party トランシーバ

メリット

開発には使いやすい

デメリット

運用には使いづらい

OS アップグレードはトラブル祭り

  • 問題が起きたら全数チェック

機器アップグレード後に使えなくなる ?

10G -> 1G に速度が低下した

デュアルレート SFP が刺さっていた

  • EEPROM のフラグが 1G と 10G で立っていた
  • OS アップグレードで EEPROM 読み込みの処理が変わって、1G として認識されるようになった
  • 同じ SFP メーカー (Finsar とか) でも、NW 機器ベンダーが異なると EEPROM の内容も異なる

一部のポートがリンクダウン

NW 機器ベンダーの純正品でも NG , F 社製のもののみ NG

  • 特定トランシーバ メーカーが使用できなくなる S/W 不具合だった
  • アップグレード後、F 者のトランシーバのみ、光パラメータのチューニングが適用されなくなっていた

ベンダーロックとの戦い

ホワイトボックス スイッチの OS が変更されると SFP を認識しない

  • ベンダーロック解除隠しコマンドは使わないことに -> トランシーバを全数交換

隠しコマンドを使わない理由

今後非サポートになってしまうと怖すぎ

  • 全ポートに対して適用されてしまう

DAC / AOC

ケーブル故障被疑だと全交換になって辛い

  • ラック間の配線で床下をめくらないといけなかったり
  • トランシーバとファイバだと、トランシーバのみ交換できる

Q&A

前回の OS アップグレードで、トランシーバの評価も検証項目に加えた

けしからん連合ネットワーク改め、Japan Open Network にようこそ!

資料

open.ad.jp の歩み

個人・団体などの AS の支援

インデペンデンス・サーバー・デイ

  • サーバー・固定 IP アドレス ふれあい構築イベント

JCIX

誤家庭 AS の台頭

Japan Community IX