Strix HaloでLLMを動かすまでの地獄 — MESファームウェア 0x83バグとの3日間
Ryzen AI MAX+ 395のk3s + AMD GPU構成でllama.cppを動かそうとしたらMemory access faultに遭遇。ROCmアップグレードでは直らず、たどり着いた真犯人はMESファームウェア 0x83のバグだった3日間の記録。
20 記事
Ryzen AI MAX+ 395のk3s + AMD GPU構成でllama.cppを動かそうとしたらMemory access faultに遭遇。ROCmアップグレードでは直らず、たどり着いた真犯人はMESファームウェア 0x83のバグだった3日間の記録。
Strix Halo(AMD Ryzen AI MAX+)をIncus VM + VFIOでk3sワーカーにしようとして、GPU dirty状態から回復できないという壁に当たりました。結局ベアメタルに落ち着くまでの話です。
device-plugin は GPU を整数リソースとして扱うため 1 枚の GPU を複数 Pod で共有できません。DRA(Dynamic Resource Allocation)に切り替えた理由と、Strix Halo 固有の 3 つの詰まりポイントを解説します。
GMKtec EVO-X2(Ryzen AI MAX+ 395)を Incus + k3s の GPU 推論ノードに仕立てる手順。ASP/CCP の同時パススルーや amdgpu-dkms のホールドなど、APU 特有のハマりポイントをまとめています。
MicroK8sから軽量なK3sへ移行。Ubuntu 26.04でのaptトラブルやKubeconfigの罠、TLS証明書の安全な切り替えなど、インフラ再構築のリアルをお届けします。
外部公開していない自宅サーバーとDiscord間で、双方向のインタラクションを行うBOTをGoで作成した話。
Codexのサブスクリプション枠をCIで活用し、TemporalでおうちK8s上に自動リファクタリング基盤を構築した記録です。状態遷移の可視化と自己修復ワークフローについて解説します。
ローカルの環境を汚さずに、おうちKubernetes上でサクッと作れてポイ捨てできるリモート開発環境(Coder + code-server)の構築手順とリアルな体験談。非同期AIエージェント時代におけるリモート開発環境のあり方と運用コストについても考察します。
ホームラボのK8s基盤をVMから軽量なIncus(LXC)上のK3s環境へ移行する検証記録。MicroK8sを諦めた理由や、コンテナのネスト・特権モードを許可するIncusプロファイル設定、Kubelet起動オプションなど、LXC特有のハマりどころと解決策を解説します。
重厚なAuthentikから軽量なPocketIDへ移行した実録ログ。パスキー(Passkeys)によるスムーズな認証体験や、Kubernetes上での具体的なデプロイ構成、各種アプリとのOIDC連携における汎用的な注意点を詳しく解説します。
Ingress Nginxのサポート終了に伴い、Traefik v3とKubernetes Gateway APIへ移行した実録ログ。IngressRouteでの躓きから最新のGateway API採用までの経緯、Helmでの設定ポイントをエンジニア目線で詳しく解説します。
TinyauthとPocket IDを組み合わせて、Kubernetes環境に軽量なProxy認証を導入した際の構築ログ。NamespaceごとのMiddleware配置や、ReferenceGrantを使わない運用ルールの判断基準など、実践的な構成を紹介します。