Claude Code スキルで、おうちk8sの自律デバッグ・チューニングができるようになった話
Claude Code の allowed-tools スキルで、homelab k3s クラスターの診断・修復・LLM 推論チューニングを自動化した話。圧縮閾値の迷走とツール削減を経て、実使用 TPS が 21 t/s から 32+ t/s になった。
Infrastructure & Engineering
Kubernetes、Homelab、セルフホストツールのセットアップと運用記録
Claude Code の allowed-tools スキルで、homelab k3s クラスターの診断・修復・LLM 推論チューニングを自動化した話。圧縮閾値の迷走とツール削減を経て、実使用 TPS が 21 t/s から 32+ t/s になった。
GitHub-hosted runner からはアクセスできない homelab 内部のサービスに、ARC (Actions Runner Controller) の self-hosted runner を K8s に立てることで GitHub Actions から直接到達できるようにした話。
AMD Radeon で動く Lemonade サーバーと ChatGPT サブスクリプションを LiteLLM Proxy で束ねて OpenAI 互換 API に統一した話。opencode との組み合わせも検討中。
VS Code Copilot Chat の commit メッセージ生成などに使われる utility model を、LiteLLM 経由の Gemma-4-E4B に切り替えて GitHub Copilot のクォータを温存した話。
Ryzen AI MAX+ 395のk3s + AMD GPU構成でllama.cppを動かそうとしたらMemory access faultに遭遇。ROCmアップグレードでは直らず、たどり着いた真犯人はMESファームウェア 0x83のバグだった3日間の記録。
Strix Halo(AMD Ryzen AI MAX+)をIncus VM + VFIOでk3sワーカーにしようとして、GPU dirty状態から回復できないという壁に当たりました。結局ベアメタルに落ち着くまでの話です。
device-plugin は GPU を整数リソースとして扱うため 1 枚の GPU を複数 Pod で共有できません。DRA(Dynamic Resource Allocation)に切り替えた理由と、Strix Halo 固有の 3 つの詰まりポイントを解説します。
GMKtec EVO-X2(Ryzen AI MAX+ 395)を Incus + k3s の GPU 推論ノードに仕立てる手順。ASP/CCP の同時パススルーや amdgpu-dkms のホールドなど、APU 特有のハマりポイントをまとめています。
外部公開していない自宅サーバーとDiscord間で、双方向のインタラクションを行うBOTをGoで作成した話。
ローカルの環境を汚さずに、おうちKubernetes上でサクッと作れてポイ捨てできるリモート開発環境(Coder + code-server)の構築手順とリアルな体験談。非同期AIエージェント時代におけるリモート開発環境のあり方と運用コストについても考察します。
コストと実用性を天秤にかけ、TrueNASからGoogle DriveへデータをPUSHする「ちょっとゆるい」3階層バックアップを構築しました。その構成理由と具体的な設定手順の備忘録です。
ホームラボのK8s基盤をVMから軽量なIncus(LXC)上のK3s環境へ移行する検証記録。MicroK8sを諦めた理由や、コンテナのネスト・特権モードを許可するIncusプロファイル設定、Kubelet起動オプションなど、LXC特有のハマりどころと解決策を解説します。