AIとの開発が進むほど、トークン(コスト)の消費は増大します。特にGeminiのような多機能モデルは便利ですが、単純なコード生成まで担当させると効率が悪くなります。そこで、NVIDIA NIMを活用した「脳の使い分け」という戦略を導入しました。
「高価なAI(思考担当)には難しいことをさせ、安価なAI(作業担当)には定型作業をさせる」という、プロジェクトの基本ルールです。
NVIDIA NIM (Inference Microservices) は、世界最高峰のモデル(Qwen2.5-Coderなど)をAPI経由で高速かつ安価に利用できます。思考をGemini、生成をNVIDIAモデルに担当させることで、Geminiのトークン消費を8割以上削減することが可能になりました。
事務作業に例えると?
会社のトップ(Gemini)が自らコピー機の前で資料を綴じるのではなく、優秀な事務スタッフ(NVIDIAモデル)に作業を任せ、トップは戦略立案に集中する状態を作ることに似ています。
OSごとの仕様(エスケープ、変数展開)の違いという、技術的な細部の格闘です。
当初、Windowsのバッチファイル(.bat)でAPIリクエストを送ろうとしましたが、記号や空白の処理でデータが壊れる問題に直面しました。これを以下の工夫で解決しました。
.ps1 スクリプトに任せ、バッチファイルはただの実行ボタン(ラッパー)にする。.agent/rules/nim-routing.md を作成し、AIエージェントに「いつ委託すべきか」を教え込む。llm_task.bat と llm_task.ps1 を配置し、Geminiがいつでも外部の脳を呼び出せるように設定。本辞書の内容は、購入特典のMarkdownファイルを通じて、あなたの使い慣れた知識管理ツールに取り込むことができます。