Back to Blog
オープンソース

StepFunが超高速MoEモデル「Step-3.5-Flash」をオープンソース化:有効パラメータ11Bで最高350tokens/sの驚異的な速度を実現

StepFunが超高速MoEモデル「Step-3.5-Flash」をオープンソース化:有効パラメータ11Bで最高350tokens/sという驚異的な速度を実現

中国のAIスタートアップ「阶跃星辰(Stepfun AI)」が、オープンソースの基盤言語モデル「Step-3.5-Flash」をリリースしました。

このモデルの最大の特徴は、「フロンティアレベルの性能」と「極めて高い推論速度」の両立です。特にエージェント(Agentic)用途を強く意識した設計となっており、生成AIの実用化フェーズにおける重要なマイルストーンとなる可能性を秘めています。

Sparse MoEアーキテクチャ:規模と効率を両立させる核心技術

Step-3.5-Flashが驚異的な効率を実現できた理由は、Sparse Mixture-of-Experts (MoE) アーキテクチャの採用にあります。

MoEは、単一の巨大なネットワークではなく、複数の「専門家(エキスパート)」ネットワークを並列に配置する仕組みです。入力トークンに応じて必要なエキスパートだけを動的に活性化させるため、計算量を劇的に抑えられます。

Step-3.5-Flashの総パラメータ数は196B(1960億)という膨大な規模ですが、1トークンの推論に使用される有効(アクティブ)パラメータはわずか11B(110億)。これは全体の約5.6%に相当します。

つまり、「知識」として196Bの広大なパラメータを保持しながら、「思考」に要する計算リソースは11B分で済むという、規模と速度の理想的なバランスを実現したといえます。これにより、以下の2つのメリットを享受できます。

  1. メモリ効率の向上: 全パラメータをロードする必要がある従来の密なモデル(Dense Model)に比べ、必要メモリ量を大幅に削減可能です。
  2. 計算速度の向上: 活性化される演算量が少ないため、同じハードウェアでもはるかに高速なトークン生成が可能になります。

圧倒的な性能データ:速度だけに留まらない「知性」

公開された技術詳細とベンチマークによると、このモデルの強みは単なる「速さ」だけではありません。

推論速度のインパクト

  • 標準的なスループット: 100〜300 tokens/s
  • ピークスループット(コーディング等): 最大350 tokens/s

この数値はA100 80GB GPU 1枚などの環境で測定されたと推測されます。従来の同クラスの密なモデルが数十tokens/sであるのに対し、一桁近い高速化を実現している計算になります。

一般性能とエージェント最適化

性能面では、中国国内の競合である「Kimi K2.5」や「Qwen2.5」系の最新モデルと同等以上のスコアを記録しています。MMLU(常識推論)、GSM8K(数学)、HumanEval(コーディング)などの標準テストにおいて、MoE化による性能劣化が極めて小さいことが証明されました。

また、本モデルは「信頼性の高いエージェント的インテリジェンス」を標榜しています。単発のQ&Aだけでなく、「複数ステップの推論」「ツールの使用」「計画立案」といった複雑なワークフローにおいて、高い成功率と一貫性を発揮するように設計されています。

爆速を支えるもう一つの鍵:Multi-Token Prediction (MTP-3)

Step-3.5-Flashの速度の秘密は、MoEだけではありません。Multi-Token Prediction (MTP)、特に一度に3つのトークンを予測する「MTP-3」の採用が極めて重要です。

従来のトランスフォーマーは「次の1トークン」だけを予測しますが、MTPは将来の複数トークンを並列に予測します。これにより、最初の1文字目が出るまでの時間(レイテンシ)は維持したまま、単位時間あたりの生成量(スループット)を劇的に向上させることができます。

「350 tokens/s」という驚異的な数字は、MoEによる計算量削減とMTP-3によるスループット向上という、二つの効率化技術による「合わせ技」の結果といえるでしょう。

業界への影響:中国発オープンソースMoEの台頭

今回のリリースから、現在のAI業界の明確なトレンドが読み取れます。

1. 「効率」が次なる主戦場へ

モデル規模(パラメータ数)の競争から、**「単位計算コストあたりの性能」**を競うフェーズへシフトしています。最高精度を追求するだけでなく、いかに低コストで実用的な速度を引き出すかが鍵となっています。

2. 中国勢の戦略的なオープンソース化

MetaのLlamaシリーズに続き、Qwen、Yi、DeepSeek、そしてStepFunといった中国勢が高性能モデルを積極的に公開しています。これは開発者コミュニティを自社エコシステムに巻き込み、業界標準を握ろうとする戦略的な動きです。

3. AIエージェント実用化の加速

エージェント最大のボトルネックは、思考ステップごとの待ち時間でした。Step-3.5-Flashのような高速モデルが普及すれば、複雑なタスクをこなすエージェントが現実的な時間で動作し、実用化のハードルが大きく下がります。

日本の開発者が「今、すべきこと」:実践ガイド

この技術波を捉えるため、日本のAI開発者や技術担当者には次の3つのアクションを推奨します。

  1. まずは定量評価を:GitHub (stepfun-ai/Step-3.5-Flash) からモデルを入手し、自社のユースケース(要約、コード生成等)で、既存モデルと比較して速度と品質のトレードオフがどれほど有利か検証してください。
  2. エージェントパイプラインへの統合:LlamaIndexやLangChainと組み合わせ、「Web検索→要約→レポート作成」といったマルチステップタスクを試してください。レスポンスの向上は、ユーザー体験(UX)を劇的に改善します。
  3. 最新の効率化技術を学ぶ:本モデルはMoEとMTPという最先端技術の「生きた教材」です。量子化(GPTQ, AWQ)や知識蒸留を施してどこまで軽量化できるか実験し、自社モデル最適化の知見を蓄積してください。

まとめと展望

Step-3.5-Flashは、LLMの実用化において**「効率」こそが最重要課題である**ことを鮮明に示しました。

今後は、このアーキテクチャがさらに大規模なモデル(1T規模など)に適用され、「GPT-4クラスの知性をリアルタイム速度で」利用できる時代が来るかもしれません。また、高速な「思考エンジン」としてのデファクトスタンダードになれば、AIが人間の業務フローにシームレスに組み込まれるケースが爆発的に増えるでしょう。

日本の開発者にとっても、この強力な「新しい武器」をいち早く手に取り、実用的なアプリケーション開発を加速させる絶好の機会です。


関連記事

Comments (0)

Share:XHatena

Post a Comment

Loading...