Back to Blog
AIエージェント

LLMの「行動健康診断」とは?挙動の安定性を定量化するPSA手法の解説

LLM運用における「精度」と「挙動」の乖離

AIエージェントやLLMアプリケーションを運用する際、多くの開発者が「精度(Accuracy)」や「正解率」といったベンチマーク評価に注力しています。しかし、実際の運用現場では、モデルが急にユーザーに同調しすぎたり(迎合)、指示を無視して不自然な挙動を示したりといった「挙動の不安定さ(Behavioral Instability)」が大きな課題となります。

こうした課題に対し、Silicon Psyche Labsが開発した**PSA(Posture Sequence Analysis)**は、モデルの内部ウェイトにアクセスすることなく、外部からの出力挙動を分析する「ブラックボックス行動解析ツール」としてのアプローチを提案しています。いわばLLMのための「行動健康診断」のような仕組みです。

PSA(Posture Sequence Analysis)の仕組みと理論的根拠

PSAは、Canaleが2025年に発表した「サイバーセキュリティ心理学フレームワーク(CPF)」という、100の認知前脆弱性のタクソノミーに基づいています。この理論をベースに、トークン統計からセマンティックドリフト(意味の乖離)までをカバーする24の指標を導入しています。

具体的には、以下の5つの分類器スタック(Classifier Stack)を用いて挙動を定量化します。

  • C0 (Input Intent): コンプライアンス圧力や境界線の探索、脱獄(Jailbreak)試行など、入力意図を10の分類器で識別します。
  • C1 (Adversarial Stress): 制限への準拠状況や、迎合的なドリフトなどを19の分類器で追跡します。
  • C2 (Sycophancy): ユーザーへの過度な追従、お世辞、ユーザー好みに合わせた歪曲などを10の分類器で測定します。
  • C3 (Hallucination Risk): 推測に基づく回答や根拠のない自信、捏造などを8の分類器でフラグ立てします。
  • C4 (Persuasion Technique): 権威への訴えや社会的証明、緊急性の演出など、12の説得手法を識別します。
  • C5 (Action-Risk): PSA v3より導入され、アクションに伴うリスクを10の分類器(A0–A9)で分類します。

運用のための定量指標と高度な分析機能

PSAは単なる分類に留まらず、セッション全体の健全性を数値化する指標を提供しています。代表的なものに、0から1で評価される**BHS(Behavioral Health Score:行動健康スコア)**があります。また、**POI(Posture Oscillation Index:姿勢振動指数)DPI(Dissolution Position Index:解消位置指数)**といった指標により、挙動の揺らぎを定量的に把握することが可能です。

さらに、PSA v3では以下のような高度な解析機能が実装されています。

  • エージェント相互作用グラフ(DAG): 挙動のフローを可視化します。
  • 「スイスチーズ」アライメント検知: 整合性の穴を特定します。
  • HMM(隠れマルコフモデル): 時系列的な状態予測を行います。
  • Zスコア分析: 設定可能なベースラインと比較し、現在の挙動が統計的にどの程度逸脱しているかをベンチマークします。

エコシステム:ストレステストとリスク監視

PSAは単体ではなく、以下のサブシステムと連携して動作します。

  • Silicon Chaos: モデルに意図的なストレスを与え、境界線をマッピングするための敵対的テストツールです。
  • SIGTRACK: 生テキストではなく「行動シグネチャ」として保存するため、GDPR準拠のプライバシー保護がなされたインシデントアーカイブです。
  • DRM (Dyadic Risk Monitor): 人間とAIの相互作用における危機検知システムです。ユーザー側の状態をスコアリングするIRSと、AIの回答妥当性を評価するRASを組み合わせ、リスクレベルを「Green」から「Critical」までの5段階で判定します。

まとめ

LLMをエージェントとして実戦投入する場合、単一のプロンプトで正解が出たかということ以上に、「どのような状態で、安定して動作し続けているか」という行動指標の管理が重要になります。PSAのような行動解析アプローチを導入することで、ブラックボックスであるLLMの挙動を定量的に監視し、より安全で信頼性の高いAI運用の実現が期待されます。

参考: PSA — Posture Sequence Analysis — https://splabs.io

Comments (0)

Share:XHatena

Post a Comment

Loading...