ブログ一覧に戻る
オープンソース

階躍星辰のStep 3.7 Flash:Claude Opus 4.6の1/9コストで実現するAgent向け高効率モデル

1492年、コロンブスは大西洋の深みへと船出した。遠洋航海には当然スピードが必要だが、船団が対岸にたどり着けるかどうかを決めるのは、真水、食料、船体、マスト、帆索が長い暴風をしのぐかどうかだった。海外貿易を塗り替えたのは、こうした非ロマンチックな工学的論理だった。のちにオランダ人は「フルート」商船を設計した:コストが低く、乗組員が少なく、貨物室が大きく、大西洋航路を安定して往復できる。遠洋航海は冒険者の孤独な勇気から、複製可能で計算でき、拡張できる事業へと変わった。画像

今日のAIモデル競争も、同様の十字路に立っている。ここ数年、人们はモデルを語るとき、パラメータやリーダーボード、ピーク性能を語りがちだったが、APPSOはClaude CodeやCodexといったコーディングエージェントを使った後、AIエージェントがプロダクション環境に向かうにつれ、本当に重要になる問題が多少変わってきたと感じた:高頻度リクエストを継続的に処理できるか、ツールを安定して呼び出せるか、複雑なインターフェースを理解できるか、企業の既存フローに組み込んで長期的に稼働できるか。これらの答えは、多くの場合、ベンチマークスコアにはない。

最近、階躍星辰はStep 3.7 Flashを正式リリースし、オープンソースにした。プロダクションレベルのエージェントに向けた次世代Flashモデルとして、主にエージェント、コーディング、検索、およびマルチモーダルワークフローを対象とする。この登場のタイミングは、まさにこの交差点を捉えた。プロダクションレベルのエージェントが求めるのは、単に速さと安さではなく、信頼性、使いやすさ、デプロイしやすさ、そして実際のワークフローで日々成果を出せることがより重要だ。

Flashモデルは、もはやフラッグシップの代わりではない

従来、Flashモデルはフラッグシップモデルの軽量版と見なされ、売りは速さと安さだけだった。しかし、エージェントがワークフローの中核になると、Flashモデルの役割は変わった。モデルがマルチタスクで目標からずれやすい場合、企業でも個人でも安心して採用するのは難しい。一方、速度、コスト、ツール呼び出し、マルチモーダル理解、エコシステム互換性のバランスを取れるモデルでなければ、エージェントシステムの真に依存できる基盤能力にはなれない。

ある意味で、エージェント時代に必要なFlashモデルは、「より速い小さなモデル」から「生産効率の最も高い基盤モデル」へと進化している。フラッグシップモデルの能力上限に届きつつ、大規模エージェント呼び出しの効率的プレッシャーに耐えなければならない。Step 3.7 Flashの位置づけはまさに後者——次世代のエージェント型基盤モデルだ。画像

プロダクションレベルのエージェントの最初のハードルは、実際の作業環境を理解することだ。大量のエージェントタスクは、複雑なインターフェース、オフィス文書、チャートシステム、ブラウザページ、専用ソフトウェア、社内ツールの間に行き来する。テキスト問答に만特长なエージェントでは、これらのタスクを処理するのは難しい。

Step 3.7 Flashが重点的に強化したのは、ネイティブマルチモーダル理解と実行能力だ。UI、チャート、文書、画像、アプリケーションインターフェースを理解でき、複雑な視覚問題で自主的に画像をクロップ、拡大、再読取することもできる。情報が不確かな場合、モデルは能動的に検索を開始し、テキストと画像情報をクロスチェックすることもできる。

ここに反直感的な設計思路がある。11BアクティベーションのFlashモデルにとって、海量の視覚知識を重みに無理に詰め込むのはコスパが悪い。階躍は逆のアプローチを取った:重みには最適な推論エンジンだけを残し、知覚の境界とワールドナレッジを推論段階に外部化し、極めて高速な速度で「何度も見て、何度も調べる」ことで「パラメータが本来足りない」部分の能力を補う。低レイテンシと高スループットは、ここではデプロイ時の利点にとどまらず、能力そのものの一部になり、巧妙で賢明だ。例えば、このコックピット操作のデモでは、ユーザーが「どうやって離陸するか」だけを入力すると、モデルは自動的にコックピット領域をフレーミングし、計器、ボタン、重要な操作情報を識別し、現在のインターフェースの操作ロジックを理解して、ステップバイステップのチュートリアルを生成する。画像

ここでのポイントは、コックピット画像を識別できるだけでなく、密集し、陌生で、コンテキストに強く依存する視覚環境を、人が実践できるタスクガイドに変換できる点にある。理解できるのと、実際に动手できるように教えるのでは、難易度が全く異なる。

また、Step 3.7 FlashをモバイルGUIエージェントフローに統合し、vivoのスマホでデモを行った。スマホはUSBでMacに接続し、ADBデバッグ認証を有効にすると、ターミナルは現在のスクリーンショットを取得でき、scrcpyで同期表示される。その後、スクリプトはこのスクリーンショットをStep 3.7 Flashに送信し、画面で何が起きているかを判断させる。

例えば、Step 3.7 Flashにスマホの微信読書ヒットチャートを見させた。単にページ上の文字を読むだけでなく、チャートの構造も理解した:哪些が書名、哪些がカバー、現在のランキングはいくつ、何人が読んでいるか、おすすめ値はどの本に対応するか。この能力の意義は、エージェントが実際のアプリ facing し、整ったスクリーンショットではなく、まずページを理解してから、ユーザーが本を探す、人気を比較、チャートを整理、さらには次の操作を実行できるようになる点にある。画像

次に、美团小判官のようなページに投入し、商家の抗議シナリオを処理させた。ページにはユーザーのレビュー、画像証拠、商家の返答、「ユーザーがより合理的」「商家がより合理的」のような処理ボタンが同時に存在する。モデルにとって、これは単なるOCRではなく、ビジネスフローの理解だ:誰が苦情を言っているか、争点は何か、証拠は何か、プラットフォームは次に何を許可しているか。マルチモーダルエージェントが実際のワークフローに入るとき、遇到するはテキスト、画像、判断、操作入口が混在するこの種のインターフェースだ。画像

Blenderシーンに切り替えると、ユーザーが「このボックスをどうやって削除するか」を入力すると、モデルはBlenderのインターフェース構造、レイヤー、ツールバー、現在の編集状態を識別して、指定されたボックスを削除する手順を提供する。画像

次にアプリケーションのインターフェースデザイン分析を見てみよう。ユーザーが「これらのデザインの面白いところを説明して」を求めると、モデルは異なる画像内の情報を識別し、デザイン要素間の関係を理解して、専門的な分析を生成する。画像

Step 3.7 Flashのもう一つの重要な能力は、ネットワーク接続と視覚検索の強化だ。エージェントが実際のビジネスで遇到する問題は、動的情報、外部資料、複数のソース証拠、そして不完全な入力に関わることが多い。モデルが自分の内部の知識だけを頼りにすると、タイムリーさと正確性で失敗しやすい。

「瑞石楼」のデモは典型的だ。モデルはまずユーザーがアップロードした画像から見える手がかりを読み取り、これらの手がかり围绕して検索キーワードを生成し、Webスクレイピングツールで外部資料を調査し、最後に画像の視覚情報とWebのテキスト情報を統合して完全な回答を構築する。画像

検索はここでは単に一連のWebリンクを返すのではなく、タスク目標围绕して能動的に探し、フィルタリングし、照合し、証拠を組織する。これは検索エージェントやリサーチエージェントが本当に必要とする作業方法だ。

公式によると、Step 3.7 FlashはSimpleVQA Search、V* (Python)といった複雑な視覚タスクベンチマークで、より大規模なフラッグシップモデルに近い性能を示した。これは、情報が不十分な状況でもタスクを推進でき、未検証の回答を減らすことを意味する。画像

40個のエージェントを同時に稼働させ、大規模モデルの本来の姿

エージェントと一般的なチャットボットの違いは、呼び出し密度が高いことだ。通常の問答は1回の対話で済むが、エージェントがタスクを完了するには、環境を観察し、ツールを呼び出し、結果を読むことを繰り返す必要がある。コーディングエージェントはコードを読み、ファイルを変更し、コマンドを実行する;検索エージェントは検索、確認、情報を整理する;オフィスエージェントは表計算、文書、メールを処理する。呼び出し回数が大幅に増加すると、モデルの速度とコストはシステムレベルの問題になる。

Step 3.7 FlashはスパースMoEアーキテクチャを採用し、総パラメータは196Bに1.8B ViTで、アクティベーションパラメータはわずか11B、最大生成速度は400 Tokens/sに達する。高頻度エージェント、コーディングエージェント、検索エージェント、マルチモーダルエージェント、企業ナレッジワークエージェントにとって、これは同じ時間内でより多くの観察、呼び出し、推論を完了できることを意味する。

例えば、Step 3.7 Flashはエージェントクラスターを構築し、40個の異なる人格を持つバーチャルペルソナが製品レビューチームを演じ、製品問題について並列判断し、5つのMVP方向への偏好をリアルタイムで集計できる。画像

バッチでエージェントを走らせる価値はここにある。以前は1つのモデルが1回の分析を行うコストとレイテンシも許容範囲だったが、企業が同時に数十個のエージェントを走らせ、それぞれユーザー、専門家、営業、製品、運営、カスタマーサポートを演じると、スループット能力は即座に前提条件になる。速度が足りなければフィードバックが遅くなり、コストが高すぎればスケーラビリティは全く成り立たない。

同様に、エージェントが並列でリアルタイムに大型ナレッジグラフを構築する場合も、高頻度でステップの多いタスクに該当する。モデルの価値は生成速度だけでなく、単位時間内でより多くの観察、検索、推論を完了できる点にある。画像

さらに情報整理を見てみよう。「自動運転の総論を書きたいので、技術路線、政策法規、市場構造、代表企業の4つの方向で別々に調査して」と一句投げた。この種のタスクは資料をまとめるように見えるが、実際には複数回の検索、ソースの確認、内容の分類、構造化出力をトリガーする。タスクチェーンが長く、呼び出し回数が密であればあるほど、モデルスループットの差が容易に増幅される。画像

Step 3.7 Flashの直感的な印象は速さだだが、速さ的同时に品質も落としていない——全Webから4つの方向の資料をそれぞれ該当セクションに集め、技術路線は明確に説明し、政策法規と市場構造の情報も分けて、異なる方向を一かたまりに揉むことはなく、構造化出力に必要な階層は全てある。画像

注目すべきは、Step 3.7 Flashがタスクを完了するコストパフォーマンスが非常に高く、特にエージェントのような高頻度タスク形态に親和的であることだ。1回のエージェントタスクには分解、検索、Webページの読取、ツール呼び出し、結果比較、出力整理が含まれ、呼び出し回数は通常の問答よりはるかに多い。単回コストの差は、完全なタスクチェーンでは急速に増幅される。

公式データによると、アドバイザーモードを有効にすると、Step 3.7 Flashのコーディング能力はClaude Opus 4.6の97%に達し、タスクごとのコストは後者の約1/9だ。画像

まさにこのため、Step 3.7 Flashの価値は単に「速い」だけでは概括できない。エージェントワークロード置于くと、3つの問題を同時に解決している:高スループットが待機時間を短縮し、より低いタスクコストがスケーラブルな運用を支え、ヘッドモデルに近いコーディング能力が実際のワークフローに入り、継続的で複雑なタスクを引き受ける機会を与える。

さらに、エージェントがプロダクションシステムに入るには、重要なのはツールを安定して呼び出すことだ。Step 3.7 Flashは高信頼性ツール呼び出しとオーケストレーションを最適化している。公式によると、長距離マルチステップエージェントワークフローでAPI、ブラウザ、ターミナル、Officeツール、外部システムを安定して呼び出し、タスクトラジェクトリを一貫させ、タスクのずれと実行失敗の確率を低減できる。

公式はいくつかのデータを公開した。Step 3.7 Flashはマルチツール連携を検証するToolathlonで49.5%を達成し、実環境での日常自主タスク実行を検証するClawEval 1.1で67.1%を達成し、44種の職業タスクにまたがるGDPvalで45.8%を達成した。τ²-bench Telecomの低、中、高の3段階の推論難易度で、通過率は全て98%超だ。

もちろん、エージェントのプロダクション化には、過小評価されやすい条件がある:モデルがワークフローに適応することだ。モデルは通常、ヒントテンプレート、ツールプロトコル、ブラウザ環境、ファイルシステム、コード実行エンジン、評価セット、権限システム、ビジネスフローを囲むハーネスの中に配置される。

对此、Step 3.7 FlashはClaude Code、Kilo Code、Roo Code、OpenCode、Hermes Agent、OpenClawなどの主要コーディングおよびエージェントツールに対する互換性最適化を実施し、MCP、Skillsなどのツール呼び出しプロトコルや開発チェーンにも対応している。画像

開発者はこれにより、既存のエージェントフレームワークにモデルを容易に統合でき、フロー全体を再設計する必要がない。企業にとって、適応の価値は明白だ:モデルが既存のシステムに入りやすければ、試用とデプロイのサイクルが短くなり、エンジニアリングコストが低くなる。

現在、Step 3.7 FlashはKilo Code、Nous Research、Lemonadeなどのエージェントおよび開発者エコシステムプロジェクトで統合検証を完了している。階躍星辰はFireworks AI、DeepInfra、Modal LabsなどのAIインフラストラクチャおよび推論プラットフォームとの適応を推進しており、今後OpenRouter、ZenMuxなどの海外モデル集約および開発者プラットフォームにも統合する予定だ。画像

🔗 https://huggingface.co/stepfun-ai/Step-3.7-Flash

現在まで、公式はStep 3.7 Flashに関するModel Page、GitHub、Hugging Face、ModelScope、国内オープンプラットフォームAPI、海外オープンプラットフォームAPI、Studioオンライン体験、および階躍AIアプリへの入口を提供している。これらの入口は、開発者試用、企業API統合、オープンソースエコシステム使用の両方に対応している。さらに重要なのは、Step 3.7 Flashがクラウドおよびローカルデプロイをサポートすることだ。公式はパーソナルワークステーションやローカル環境に最適化されたエッジマルチ精度バージョンも提供している。

海外開発者の実測フィードバックは、公式データ以外の視点を補完している。ローカルMoEテストでDeepSeek V4 FlashStep 3.7 Flash、Minimax M2.7を比較した結果、Step 3.7 Flashはagg@64で2123.13 tok/sに達し、他のモデルを上回った。画像

また、開発者はGemini 3.5 Flashでコードを書いた後、Step 3.7 Flashにチェックさせると、7個以上の小さなバグやエラーを検出できたと述べた。ローカルスループットでもコードデバッグでも、Step 3.7 Flashが実際の開発フローに入り始め、開発者が長期的に使用できる生産性ツールとして認識され始めていることが実際に示されている。

基盤モデルは、エージェントのために生まれるべき

Step 3.7 Flashを体験した後、APPSOは、ある次元のベンチマークスコアを追求するよりも、エンジニアリングの実用性を重視していると気づいた。マルチモーダル、ネットワーク検索、ツール呼び出し、フレームワーク互換性、ローカルデプロイ、低コスト、高スループット。これらを個別に見れば新鮮ではないが、組み合わさると、恰好にエージェントがプロダクション環境で最も必要とする短板を補っている。

この道筋は派手ではないが、エージェントが現在置かれている段階に非常に適している。以前はモデルに質問するとき、賢いかどうかを聞いたが、エージェント時代に本当に聞くべきは別の問題だ:このモデルは誰のために設計されているか。

この2つの質問の背後にある出発点は異なる。1つはモデルが人間最適化されていることで、默认して読め、待ち、自分で補完できる人間を対象とすることを意味する。一言質問し、一言答え、数秒遅くても問題なく、たまには曖昧でも人間が補える。

しかしエージェントはそうではない。エージェントは観察、呼び出し、推論、修正のサイクルを連続で回し、1日に発するリクエストは、人が1年で話す量よりも多いかもしれない。モデルの失敗を繕うことはせず、モデルがずれれば、エージェントもずれる。人間最適化のモデルは、エージェントに適さない。これこそFlashという言葉が、エージェント時代に新しい意味を持った理由だ。もはやフラッグシップの安価な代わりではなく、最初からエージェントの性格に合わせて再設計された。

Step 3.7 Flashのこれらの特徴は、まさにこの論理に対応している。ネイティブマルチモーダルは、エージェントがまずタスク現場を見る必要があるため;400 Tokens/sは、高頻度呼び出しに遅さが許されないため;ツール呼び出しの安定性は、長距離タスクが一環で断れれば全て断れるため;ハーネス適応は、モデルがどれほど強くても、既存のシステムに入れない则白紙だ。

これはベンチマークスコアに向かって行ったのではなく、「エージェントがどのように効率的かつコスト効果よく作業できるか」に向かって行った。Step 3.5 FlashからStep 3.7 Flashまで、階躍星辰が一路で強化してきたのは、実は同じことだ:モデルをエージェントのために生み、エージェントのスケーラブルな商用化を推進する。これもモデルの今後の重要な進化ルートとなり、Step 3.7 Flashはまだ终点ではない。しかし、エージェント時代のモデルを評価するとき、単にどれほど賢いかを見つめるべきではなく、那些なエンジニアリングの会計を一つずつ明確にできるかどうかを見るべきだと私たちに見せた。

1492年に世界を変えたのは、実際にはコロンブスのあの危険な横断ではなく、むしろのちのフルート商船が1回ずつ安定して出港し、帰港し、貨物を積み、再び出発できたことだった。冒険家は対岸に到達し、商船は対岸を航路に変える。モデル競争がエージェントの段階に来て、道理も同様だ。差をつけるのは、ベンチマークスコアの驚異だけでなく、エージェントが繰り返し出発し、信頼して到達し、能力を航路に沈殿させられるモデルなのだ。


関連記事

コメント (0)

シェア:Xはてブ

コメントを投稿

読み込み中...