このモデルの強みは何ですか？

国産初の推論特化モデル数学・論理推論に強い日本語での思考プロセス可視化 Qwen-32Bベースで安定した性能

このモデルの弱みは何ですか？

推論に時間がかかるコンテキスト長が32K 通常のテキスト生成には不向き商用利用は要ライセンス確認

どんな用途に最適ですか？

数学的推論タスク論理的思考を要する問題解決日本語での複雑な分析教育分野での活用

モデル一覧に戻る

ELYZA条件付オープン

ELYZA-Thinking-1.0-Qwen-32B

Name: ELYZA-Thinking-1.0-Qwen-32B
Price: 80 JPY
Author: ELYZA

ELYZAが開発した日本初の推論特化型モデル。OpenAIのo1/o3シリーズと同様の「思考の連鎖（Chain-of-Thought）」アプローチを採用し、複雑な推論タスクに特化している。

パラメータ

32B

コンテキスト長

32K

ライセンス

ELYZA License

リリース日

2026-01-15

日本語性能

🇯🇵ネイティブJP

日本企業が開発したモデルまたは日本語に特化したモデル。日本語の理解・生成能力が最も高い。

API料金

入力料金（1Mトークンあたり）

¥80

出力料金（1Mトークンあたり）

¥320

課金モード: standard

強み

・国産初の推論特化モデル
・数学・論理推論に強い
・日本語での思考プロセス可視化
・Qwen-32Bベースで安定した性能

弱み

・推論に時間がかかる
・コンテキスト長が32K
・通常のテキスト生成には不向き
・商用利用は要ライセンス確認

活用例

・数学的推論タスク
・論理的思考を要する問題解決
・日本語での複雑な分析
・教育分野での活用

深度分析

パラメータ

32B

軽量なオープンウェイトモデル

コンテキストウィンドウ

128K tokens

131072トークン

MATH-500（英語）

80.8%

o1-mini：80.0%と比較

MATH-500（日本語）

78.6%

o1-mini：77.2%と比較

JMMLU_small

73.1%

日本語知識ベンチマーク

ライセンス

Apache 2.0

商用利用可能

強み

・日本語と英語の両方で強力な数学的推論能力を持ち、主要ベンチマークでo1-miniを超えています。
・軽量（32Bパラメータ）でありながら、はるかに大きな推論モデルと競争力があります。
・商用利用が可能な寛容なApache 2.0ライセンスで完全にオープンソースです。

弱み

・コーディング性能（JHumanEval）はベースモデルと比較して低下し、競合他社に遅れをとっています。
・推論に特化したトレーニングにより、一部の一般的な日本語タスクの性能がわずかに低下しました。
・フル精度推論にはかなりのVRAM（約66GB）が必要で、アクセシビリティが制限されます。

競合比較

Model	Arena	SWE	GPQA	Price
OpenAI o1-mini	該当なし	該当なし	該当なし	API専用（プレミアム）
DeepSeek-R1-Distill-Qwen-32B	該当なし	該当なし	該当なし	オープンソース
QwQ-32B	該当なし	該当なし	該当なし	オープンソース

概要

ELYZA-Thinking-1.0-Qwen-32Bは、ELYZAが開発した日本初の特化型推論モデルです。OpenAIのo1シリーズと同様のChain-of-Thought（CoT）アプローチを使用して、複雑な論理的および数学的問題に取り組みます。このモデルはAlibabaのQwen2.5-32B-Instructを基にしており、最適な推論パス探索のための革新的なモンテカルロ木探索（MCTS）ベースのアルゴリズムを使用して生成された約150,000の高品質合成データセットで微調整されています。このプロセスにより、320億パラメータのモデルが主要な推論ベンチマークでOpenAIのo1-miniと同等の性能を達成し、寛容なApache 2.0ライセンスの下でオープンウェイトのままです。重要な革新はデュアルモデルアプローチです。主な推論モデルに加えて、ELYZAは同じ問題セットで訓練されたが長い推論プロセスのない「Shortcut Models」（32Bおよび7Bバリアント）をリリースしました。Shortcutモデルは一般的なタスクでGPT-4oと同等の性能を達成し、訓練中に開発された複雑な推論能力をより高速で直接的な応答モデルに蒸留できることを示しています。この研究は、強力かつ効率的なモデルを作成するために推論から開発フェーズへと重い計算コストを移すというAI開発の成長トレンドを強調しています。数学的および論理的推論に優れている一方、モデルにはトレードオフがあります。コーディング能力はベースモデルと比較してわずかに低下しており、特化したトレーニングデータにコーディングタスクが不足していたことを示唆しています。それでも、日本語AIにとって重要なマイルストーンであり、特化した推論タスクの最先端を進める強力で商業的に実行可能なオープンソース推論モデルを提供します。

ベンチマーク＆性能

このモデルは特化した推論タスク、特に数学において強力な性能を示しています。ELYZAの技術ブログによると、英語のMATH-500ベンチマークで80.8%を達成し、OpenAIのo1-mini（80.0%）をわずかに上回っています。日本語の数学的推論も優れており、翻訳されたMATH-500ベンチマークで78.6%を獲得し、o1-miniの77.2%と比較しています。日本語固有の知識については、JMMLU_smallで73.1%を獲得し、o1-miniと一致しています。日本語のMT-Benchで測定された対話能力は7.67/10で、再びo1-miniと同等です。ELYZA Tasks 100でのモデルの指示追従性能は4.17/5のスコアを出しています。しかし、その性能はすべての領域で均一ではありません。JHumanEvalコーディングベンチマーク（日本語）では62.2%を獲得し、o1-miniと同等ですが、DeepSeek-R1-Distill-Qwen-32Bモデルが達成した63.4%より低くなっています。さらに注目すべきことに、このスコアはベースモデルのQwen2.5-32B-Instructと比較して低下しており、トレーニングデータセットにコーディングタスクが不足していたことに起因しています。 | Benchmark (Language) | ELYZA-Thinking-1.0 | OpenAI o1-mini | DeepSeek-R1-Distill | QwQ-32B | |-----------------------|---------------------|----------------|----------------------|----------| | MATH-500 (English) | **80.8%** | 80.0% | 79.0% | 78.0% | | MATH-500 (Japanese) | **78.6%** | 77.2% | 77.8% | 76.8% | | JHumanEval (Japanese) | 62.2% | 62.2% | **63.4%** | 61.0% | | JMMLU_small (Japanese) | **73.1%** | 73.1% | 70.7% | 72.3% | | Japanese MT-Bench | 7.67 | 7.67 | 7.67 | 7.67 | | ELYZA Tasks 100 | 4.17 | 4.17 | 4.17 | 4.17 |

詳細比較

主要な競合他社との直接比較： 1. **OpenAI o1-miniと比較**: ELYZA-Thinking-1.0-Qwen-32Bは、数学および日本語推論ベンチマークでo1-miniと一致またはわずかに上回っています。重要な利点は、Apache 2.0の下で完全なオープンウェイトモデルであり、ローカルデプロイメント、修正、API料金なしでの商用利用が可能で、o1-miniとは異なりプロプライエタリーでAPI専用です。 2. **DeepSeek-R1-Distill-Qwen-32Bと比較**: 両方ともQwen2.5-32Bに基づくオープンソース推論モデルです。ELYZAは日本語と英語の数学の両方で優れた性能を示しています（MATH-500英語で80.8%対79.0%）。しかし、DeepSeekのモデルはコーディングでわずかな優位性を維持しています（JHumanEvalで63.4%対62.2%）であり、ELYZAの最終モデルマージで英語性能を向上させるコンポーネントとして使用されました。 3. **QwQ-32Bと比較**: ELYZAはすべての数学および知識ベンチマークで一貫して高いスコアを示しています。例えば、MATH-500英語でELYZAは80.8%を獲得し、QwQの78.0%と比較され、全体的により強力な推論能力を示しています。 **主要な差別化要因**: MCTSを使用した合成データ生成のためのELYZAのユニークな開発プロセスと、補完的な「Shortcut Model」（高速で直接的な応答に最適化）のリリースが際立っています。Shortcutモデル単独で一般的なタスクにおいてGPT-4oと競争力があるとされ、単一の開発パイプラインから2つのモデルのエコシステムを提供しています。

コミュニティ評価

このモデルのリリースは、ZDNET Japanなどの主要な日本のテック出版物で取り上げられ、AIモデルディレクトリ（LLM Explorer）に記載されています。コミュニティの受容は、オープンソース推論モデルへの日本の貢献と、高品質合成データ生成のためのMCTSの革新的な使用への評価を強調しています。開発者は、日本市場での商用アプリケーションの主要な利点として寛容なライセンスを指摘しています。しかし、実際の採用は、高いVRAM要件（フル精度で65.8 GB）とモデルの特化した性質によって抑制される可能性があります。これは、汎用チャットボットではなく、研究や特定のエンタープライズアプリケーション（例えば、複雑な日本語の数学的または論理的問題解決）の貴重なツールと見なされています。より効率的な「Shortcut Model」の同時リリースは、異なる性能/コストトレードオフの必要性への認識を示しており、好意的に注目されています。

ユースケース

1. **日本語での複雑な数学的問題解決**: 厳密な段階的な論理的推論を必要とする教育テクノロジープラットフォーム、学術研究、またはフィンテックアプリケーションに最適です。例えば、コンテストレベルの数学問題の解決や詳細な証明の生成。 2. **エンタープライズワークフローでの特化した論理分析**: 法的契約分析、財務報告監査、または技術文書レビューのための内部ツールに統合でき、複雑な情報から結論を導くために日本語での深い多段階推論が必要です。 3. **推論AIの研究開発**: オープンウェイトモデルと詳細な技術ブログは、Chain-of-Thoughtトレーニング、MCTSベースのデータ合成、および推論能力の「Shortcut」モデルへの蒸留を研究する研究者にとって優れたリソースです。 4. **このモデルを代替案より選択する場合**: 主なタスクが日本語での複雑な推論または数学を含み、商用ライセンス付きの自己ホスト可能なモデルが必要な場合。長い推論プロセスのオーバーヘッドなしで一般的な日本語タスクの高速で直接的な応答が必要な場合は、付随するShortcutモデルを選択してください。