Strix HaloでLLMを動かすまでの地獄 — MESファームウェア 0x83バグとの3日間
Ryzen AI MAX+ 395のk3s + AMD GPU構成でllama.cppを動かそうとしたらMemory access faultに遭遇。ROCmアップグレードでは直らず、たどり着いた真犯人はMESファームウェア 0x83のバグだった3日間の記録。
インフラ、Kubernetes、AI などの技術ブログ
Ryzen AI MAX+ 395のk3s + AMD GPU構成でllama.cppを動かそうとしたらMemory access faultに遭遇。ROCmアップグレードでは直らず、たどり着いた真犯人はMESファームウェア 0x83のバグだった3日間の記録。
Strix Halo(AMD Ryzen AI MAX+)をIncus VM + VFIOでk3sワーカーにしようとして、GPU dirty状態から回復できないという壁に当たりました。結局ベアメタルに落ち着くまでの話です。
device-plugin は GPU を整数リソースとして扱うため 1 枚の GPU を複数 Pod で共有できません。DRA(Dynamic Resource Allocation)に切り替えた理由と、Strix Halo 固有の 3 つの詰まりポイントを解説します。
GMKtec EVO-X2(Ryzen AI MAX+ 395)を Incus + k3s の GPU 推論ノードに仕立てる手順。ASP/CCP の同時パススルーや amdgpu-dkms のホールドなど、APU 特有のハマりポイントをまとめています。
MicroK8sから軽量なK3sへ移行。Ubuntu 26.04でのaptトラブルやKubeconfigの罠、TLS証明書の安全な切り替えなど、インフラ再構築のリアルをお届けします。
外部公開していない自宅サーバーとDiscord間で、双方向のインタラクションを行うBOTをGoで作成した話。
Codexのサブスクリプション枠をCIで活用し、TemporalでおうちK8s上に自動リファクタリング基盤を構築した記録です。状態遷移の可視化と自己修復ワークフローについて解説します。
Astroで構築された静的サイトに、Google Analyticsのデータを利用した人気記事ランキング機能の実装を解説します。ビルド時のデータ取得、コンテンツとの整合性チェック、CIでのフォールバック処理など、SSGならではの方法を紹介。
「リソースを増やせば速くなる」という幻想からの脱却。アムダールの法則、USL、待ち行列理論の数式化から、経験則に基づくキャパシティプランニングの実践までをまとめました。
当て推量でのチューニングはもう終わりにしよう。本番環境のパフォーマンス障害を安全かつ正確に暴き出す、Linuxの3大可観測性ツール(perf, Ftrace, BPF)の使い分けと極意をまとめました。
当て推量でのチューニングからの脱却。クライシスツールの準備から、/procの裏側、kprobe/uprobe、PMCまで、パフォーマンスツールの情報ソースの仕組みをまとめました。
「IOPS」や「平均レイテンシ」に騙されるな! 仮想ディスクの罠、二峰分布の可視化、biostacksによる謎のI/Oの犯人探しまで、ディスクパフォーマンス分析の極意をまとめました。