清華大学チームがAgent OS「PilotDeck」をオープンソース化、Tokenコストを最大70%削減


清華大学のTHUNLPラボ、面壁智能、OpenBMB、AI9starsによって共同開発されたAIエージェント用オペレーティングシステム「PilotDeck」がオープンソースで公開された。独立したワークスペース(WorkSpace)の構築、可視化および編集可能なメモリ管理、そして大幅なトークンコストの削減を実現しており、個人の生産性を最大化させるAI軍団の構築を可能にする。


異なるタスクを同時に処理するマルチワークスペース
PilotDeckを使い、ゲーム開発とデータ可視化という全く異なる2つのワークスペースを同時に実行した。
1つ目のワークスペースでは、「仕入れ、価格設定、行列システムを備え、顧客が価格と評判に基づいて購入を決定する、タピオカ店経営シミュレーションゲームを作成してほしい」というプロンプトを入力した。PilotDeckはゲームデザインのコアサイクルを分解し、5種類の製品ライン、仕入れ・価格設定・顧客・財務などのシステムを設計した。技術実装においても、カードスタイルのUIレイアウトや重要なJavaScriptモジュール、実装ステップを事前に構築した。

結果として、オンラインでプレイ可能なタピオカ店経営ゲームが生成された。
2つ目のワークスペースでは、「世界中のAI企業の資金調達データを用いて、アニメーション効果があり、ホバー時に詳細を表示できるインタラクティブなデータ可視化ダッシュボードを作成してほしい」というタスクを実行した。PilotDeckは、資金調達額TOP 10、地域別(北米/欧州/アジア)の比率、セクター別(汎用AI/企業向けAI/生成AI)の分布など、4つのチャートを用いてデータを明確に可視化した。

さらに、「プログラマーの性格診断テスト(10問)」の作成も同時に行った。GitHubのダークテーマやJetBrains Monoフォントを採用したテック感のあるデザインで、アーキテクトや哲学者など6つの人格タイプを定義したアプリケーションが生成された。

これらのタスクはすべて独立したワークスペースで実行され、互いに干渉することなく並行して処理された。

フォルダ隔離を超えた「生存環境」としてのワークスペース
PilotDeckは、単なるファイルの隔離ではなく、AIエージェントにとっての完全な「生存環境」を構築する。

タピオカ店プロジェクトのメモリにはゲームロジックやUIスタイルが保存され、データダッシュボードプロジェクトにはチャートの種類や配色案が保存されている。両者の記憶が混ざることはない。

多くのツールが「フォルダ+ルール」による隔離を行っているが、PilotDeckのワークスペースは以下の3層構造を持つ。
- 専用ファイルシステム: プロジェクトに属するファイルとAIが生成したファイルの境界を明確化する。
- 専用メモリ: プロジェクトの定義と進捗を記録する「Project Memory」と、ユーザーの好みを記録する「Collaboration Feedback」を保持し、すべて可視化・編集が可能である。
- 専用スキル: スキルストアからワークスペースへ直接スキルをインストールできる(例:ゲーム開発用アセット検索ツールやPDF解析ツールなど)。

インテリジェントルーティングによるトークンコストの最大75%削減
Agentツールの運用コストを抑えるため、PilotDeckは独自のインテリジェントルーティング機能を実装している。
従来のルーティング方案の多くはリクエストレベルでモデルを切り替えるため、KVキャッシュが中断され、推論効率が低下するという課題があった。PilotDeckは、ルーティングを「サブエージェント」レベルで実行する。複雑なタスクを分割した後、一つのサブエージェントを特定のモデルに割り当てて完結させることで、コンテキストキャッシュを連続的に維持し、性能低下を防ぎながらコストを削減する。
また、ルーティング戦略は自然言語のプロンプトで定義可能であり、「コード関連はClaude Opus、テキスト処理は安価なモデル」といった柔軟な指定ができる。
実際のテストでは、プログラマー性格診断アプリの作成において、ルーティングなしでは10.97ドルかかるところを、ルーティングありでは1.42ドルに抑え、約75%(9.55ドル)のコスト削減を達成した。

他のシナリオにおいても高い削減効果が確認されている:
- SNSコンテンツ生成: 12.58ドル(なし) $ ightarrow$ 2.83ドル(あり)、約70%削減。
- 複雑なタスク(金融分析・コード文書等): 単体Sonnet 4.6(18.36ドル / スコア69.1)に対し、Sonnet 4.6とMiniMax-M2.7の組み合わせ(3.15ドル / スコア70.6)となり、コストを1/6に抑えつつ精度を向上させた。
さらに、ローカルモデルをサブエージェントとして接続できるため、機密データはデバイス外に出さずに処理することが可能である。必要に応じて端側モデルを自動デプロイし、音声生成などの特定のタスクを処理させることもできる。

ホワイトボックス化されたメモリ管理と「Dream」メカニズム
PilotDeckのメモリパネルでは、各記憶にタイムスタンプ、ソースパス、タイプが付与されており、AIが何をいつ記憶したかを明確に把握できる。

記憶に誤りがある場合は直接修正でき、不必要な記憶は削除可能である。これにより、会話をリセットしたり好みを再学習させたりする必要がなくなる。
また、「Dream」と呼ばれるメカニズムを搭載している。AIがアイドル時間にバックグラウンドで記憶を自動的に振り返り、整理を行う。もし整理の結果に不備があった場合は、ボタン一つで整理前の状態にロールバックすることが可能である。

GitHub: https://github.com/OpenBMB/PilotDeck 公式サイト: https://pilotdeck.openbmb.cn/

読み込み中...