シリーズ
Strix HaloでLLMを動かすまでの地獄 — MESファームウェア 0x83バグとの3日間
Series: home-kubernetes-journal
Ryzen AI MAX+ 395のk3s + AMD GPU構成でllama.cppを動かそうとしたらMemory access faultに遭遇。ROCmアップグレードでは直らず、たどり着いた真犯人はMESファームウェア 0x83のバグだった3日間の記録。
4 記事
Ryzen AI MAX+ 395のk3s + AMD GPU構成でllama.cppを動かそうとしたらMemory access faultに遭遇。ROCmアップグレードでは直らず、たどり着いた真犯人はMESファームウェア 0x83のバグだった3日間の記録。
Strix Halo(AMD Ryzen AI MAX+)をIncus VM + VFIOでk3sワーカーにしようとして、GPU dirty状態から回復できないという壁に当たりました。結局ベアメタルに落ち着くまでの話です。
device-plugin は GPU を整数リソースとして扱うため 1 枚の GPU を複数 Pod で共有できません。DRA(Dynamic Resource Allocation)に切り替えた理由と、Strix Halo 固有の 3 つの詰まりポイントを解説します。
GMKtec EVO-X2(Ryzen AI MAX+ 395)を Incus + k3s の GPU 推論ノードに仕立てる手順。ASP/CCP の同時パススルーや amdgpu-dkms のホールドなど、APU 特有のハマりポイントをまとめています。