Strix HaloでLLMを動かすまでの地獄 — MESファームウェア 0x83バグとの3日間
Ryzen AI MAX+ 395のk3s + AMD GPU構成でllama.cppを動かそうとしたらMemory access faultに遭遇。ROCmアップグレードでは直らず、たどり着いた真犯人はMESファームウェア 0x83のバグだった3日間の記録。
7 記事
Ryzen AI MAX+ 395のk3s + AMD GPU構成でllama.cppを動かそうとしたらMemory access faultに遭遇。ROCmアップグレードでは直らず、たどり着いた真犯人はMESファームウェア 0x83のバグだった3日間の記録。
Strix Halo(AMD Ryzen AI MAX+)をIncus VM + VFIOでk3sワーカーにしようとして、GPU dirty状態から回復できないという壁に当たりました。結局ベアメタルに落ち着くまでの話です。
device-plugin は GPU を整数リソースとして扱うため 1 枚の GPU を複数 Pod で共有できません。DRA(Dynamic Resource Allocation)に切り替えた理由と、Strix Halo 固有の 3 つの詰まりポイントを解説します。
GMKtec EVO-X2(Ryzen AI MAX+ 395)を Incus + k3s の GPU 推論ノードに仕立てる手順。ASP/CCP の同時パススルーや amdgpu-dkms のホールドなど、APU 特有のハマりポイントをまとめています。
MicroK8sから軽量なK3sへ移行。Ubuntu 26.04でのaptトラブルやKubeconfigの罠、TLS証明書の安全な切り替えなど、インフラ再構築のリアルをお届けします。
外部公開していない自宅サーバーとDiscord間で、双方向のインタラクションを行うBOTをGoで作成した話。
Codexのサブスクリプション枠をCIで活用し、TemporalでおうちK8s上に自動リファクタリング基盤を構築した記録です。状態遷移の可視化と自己修復ワークフローについて解説します。