このモデルの強みは何ですか？

405Bパラメータで高性能日本の文化的文脈に最適化 Llama 3の強力なベースモデル長文生成品質が高い

このモデルの弱みは何ですか？

動作に高スペックなGPUが必要非商用ライセンス（Llama 3 License）推論コストが高い API提供がない

どんな用途に最適ですか？

高品質な日本語コンテンツ生成複雑な日本語推論タスク研究・開発用途大規模データの日本語処理

モデル一覧に戻る

Sakana AI条件付オープン

Llama-3-Namazu-405B

Name: Llama-3-Namazu-405B
Author: Sakana AI

Sakana AIが開発した大規模パラメータ版のNamazuモデル。Llama-3-405Bをベースに、日本の文化的・社会的文脈に最適化した事後学習を施している。

パラメータ

405B

コンテキスト長

128K

ライセンス

Llama 3 License

リリース日

2026-03-15

日本語性能

🇯🇵ネイティブJP

日本企業が開発したモデルまたは日本語に特化したモデル。日本語の理解・生成能力が最も高い。

API料金

このモデルのAPI料金情報は現在未公開です

強み

・405Bパラメータで高性能
・日本の文化的文脈に最適化
・Llama 3の強力なベースモデル
・長文生成品質が高い

弱み

・動作に高スペックなGPUが必要
・非商用ライセンス（Llama 3 License）
・推論コストが高い
・API提供がない

活用例

・高品質な日本語コンテンツ生成
・複雑な日本語推論タスク
・研究・開発用途
・大規模データの日本語処理

深度分析

MMLU (5-shot)

88.6%

GPT-4o（〜88.7%）とほぼ同等の水準

HumanEval（コーディング）

89.0%

競争力あり、Claude 3.5 Sonnet（92.0%）には及ばない

入力価格

$2.40/M tokens

Amazon Standardプロバイダー経由

出力価格

$2.40/M tokens

Amazon Standardプロバイダー経由

コンテキストウィンドウ

128K tokens

Llama 3.1のアップグレード、以前は8Kから拡大

基盤モデルの焦点

Japanese Cultural Context

中立性と事実の正確性のための事後訓練

強み

・主要ベンチマークにおいて、クローズドソースモデルに匹敵するフロンティアレベルの性能。
・事後訓練により、政治的/文化的バイアスと、日本固有のコンテキストに対する問い合わせでの拒否率を低減。
・データ主権のため、セルフホスティングと微調整が可能な広範なオープンウェイトモデル。
・GPT-4oと比較して大幅な割引で、複数プロバイダーからコスト効率の高いAPIアクセスが可能。

弱み

・セルフホスティングには膨大な計算リソースが必要（INT4で200GB以上のVRAM、マルチGPUセットアップが必要）。
・テキストのみの入力（ネイティブのビジョンまたはオーディオ機能なし）、GPT-4oのようなマルチモーダルモデルとは異なる。
・事前訓練データの知識カットオフ（2023年12月）のため、RAGなしでは現在の出来事に遅れが生じる可能性あり。
・Namazuバリアントの特化型最適化は、対象コンテキスト外での汎用的な適用性が低下している可能性がある。

競合比較

Model	Arena	SWE	GPQA	Price
Meta Llama 3.1 405B (Base)	N/A	N/A	51.1%	$2.40/$2.40
GPT-4o	N/A	N/A	53.6%	$2.50/$10.00
Claude 3.5 Sonnet	N/A	N/A	59.4%	$3.00/$15.00

概要

Llama-3-Namazu-405Bは、Sakana AIがMetaのLlama 3.1 405Bアーキテクチャを基に開発した、特化型の大規模パラメータバリアントです。これは、モデルを日本文化および社会的コンテキストに最適化することを目的とした、焦点を絞った事後訓練の成果を表しています。主な革新は、生のベンチマークの優位性（基本能力は強力な基盤モデルに由来）ではなく、主に西洋中心のデータで訓練されたモデルに一般的に見られる、固有のバイアスを是正し、政治的に敏感なトピックに対する拒否率を低減するためのファインチューニングにあります。Sakanaの内部ベンチマークで示されているように、Namazuは、敏感な歴史的・政治的テーマに関する問い合わせに対する拒否率を大幅に削減しました（DeepSeekベースのバリアントでは〜72%からほぼ0%へ）。このモデルは、文化固有のトピックについて自動的な自己検閲なしにバランスの取れた、多角的な視点からの応答を必要とする日本の開発者や組織向けのソリューションとして、オープンウェイトエコシステム内に位置づけられています。基盤の405Bモデルが持つフロンティアレベルの性能（一般知識や数学ベンチマークでGPT-4oと競争力あり）を継承しつつ、オープンウェイトの典型的な利点（データプライバシーのためのセルフホスティング、ドメイン固有の微調整の可能性、大規模展開でのコスト効率）を提供します。ただし、その計算需要が大きいため、実用的な導入はリソースが十分な組織またはAPIプロバイダーを介したものに限定されます。

ベンチマーク＆性能

Llama-3-Namazu-405Bの性能は、基本的なアーキテクチャ機能を維持しているため、基盤モデルであるMetaのLlama 3.1 405Bと基本的にベンチマークされます。事後訓練プロセスは、生のベンチマークスコアを向上させるのではなく、アライメントとバイアス是正に焦点を当てています。 | ベンチマーク | Llama 3.1 405B (Namazu基盤) | GPT-4o | Claude 3.5 Sonnet | 備考 | | :--- | :--- | :--- | :--- | :--- | | MMLU (5-shot) | 88.6% | ~88.7% | ~88.7% | 一般的な知識。すべてのモデルが統計的に拮抗。 | | HumanEval (Coding) | 89.0% | 90.2% | 92.0% | コード生成。Claudeがリード。 | | MATH (0-shot CoT) | 73.8% | 76.6% | 71.1% | 数学的推論。GPT-4oがリード、405Bは強力。 | | GPQA Diamond | 51.1% | 53.6% | 59.4% | 大学院レベルの科学。Claudeが大幅にリード。 | | IFEval | 88.6 | 87.1 | 88.9 | 指示追従。すべて競争力あり。 | | MGSM (Multilingual Math) | 91.6% | 90.5% | 91.6% | 多言語数学。トップで同率。 | **主要な性能洞察:** 標準化された学術ベンチマークでは、405Bモデル（したがってNamazu）はフロンティアのクローズドソースモデルと1-3%の範囲内にあり、オープンとクローズドの間の差が縮まっていることを確認できます。その強みは数学と一般的な指示追従にあります。Namazuの事後訓練による明示的な性能向上は、Sakana AIの内部指標での中立性と拒否率削減に記録されており、これらの公開学術ベンチマークには反映されていません。

詳細比較

コミュニティ評価

広範な開発者および研究者コミュニティは、基本のLlama 3.1 405Bを、プロプライエタリシステムとの性能差を解消した画期的なオープンウェイトモデルとして主に認識しています。そのリリースは、セルフホスティングによるプライバシー保護AIと、微調整によるコスト効率の高いカスタマイズを可能にした点で歓迎されています。Sakana AIのNamazuバリアントは、特に日本において、この技術の特化型で文化的に重要な応用と見なされています。反応は、大規模モデルの固有のバイアスを削減するという倫理的・実用的な意味合いと、コア機能を損なうことなく地域固有の適応を作成するという技術的課題に焦点を当てています。導入パターンは、開発者が基本の405Bを汎用的で高能力なタスクや、より小さく安価なモデルを訓練するための合成データ生成（蒸留）に使用していることを示しています。Namazuバリアントは、過度な注意なしに微妙なローカルなトピックをナビゲートできるモデルを必要とする日本の組織や研究者から関心を集めていますが、その特化した性質により、その地域外でのより広範な採用は限定的です。

ユースケース

1. **文化的に微妙なコンテンツ生成とQ&A（日本特化型）:** 歴史的、政治的、または社会的トピックについてバランスの取れた視点を必要とする、日本人ユーザー向けのアプリケーションでは、GPT-4oやClaudeではなくLlama-3-Namazu-405Bを選択してください。例: 教育教材やニュース分析向けのAIアシスタントは、Sakana AIが報告した拒否率の削減に従い、敏感なトピックについて拒否することなく、事実上正確で多面的な回答を提供できます。 2. **コスト効率の高い高品質な合成データ生成:** 大規模な合成データ作成には、API専用の競合ではなくこのモデルを選択してください。そのオープンウェイトライセンスにより、一時的なインフラコストで（より小さなモデルの蒸留やデータセット拡張のための）訓練データ生成のための無制限の推論が可能で、急速に蓄積するGPT-4oやClaudeの高額なトークン単位料金を回避できます。 3. **データ機密性の高いワークフローのためのオンプレミス企業導入:** 機密性の高い内部データ（法的文書、独自研究、内部通信など）を処理する際には、クローズドAPIモデルではなくこれを選択してください。セルフホスティングにより、企業ネットワーク外にデータが出ることがなく、厳格なデータ主権規制に準拠できます。この機能はクローズドソースモデルでは提供できません。 4. **ドメイン固有の微調整の基盤:** 業界特化型の専門家モデルを作成するには、基本のLlama 3.1 405B（またはNamazuを特化した出発点として）を選択してください。例えば、医学文献や金融規制を微調整して、モデルの強力な推論と指示追従能力を活用した堅牢な出発点として、専門のアナリストボットを作成できます。