LIVE267社のプ��バイダーから994のAIモデルを追跡中。

BenchGeckoベータ

Charts·Build live AI market views Open charts 独自チャートを作成

LIVE

Apr 7Claude Mythos Preview · Anthropic's most capable model arrives·Mar 31GPT-5.4 Nano launched on OpenAI·Mar 31GPT-5.4 Mini joins the OpenAI lineup·Mar 30Claude Opus 4.5 input price dropped · $5.00 per 1M tokens·Mar 30Mistral Small 4 available via Mistral AI·Mar 29Gemini 2.5 Pro scores 94.1% on MMLU·Mar 29Grok 4.20 Multi-Agent Beta enters agent rankings·Mar 28DeepSeek V3.2 output price dropped · $0.38 per 1M tokens·Mar 287 new MCP servers added in dev-tools category·Mar 27Claude Sonnet 4.6 released by Anthropic·Mar 27Claude Opus 4.6 released by Anthropic·Mar 26OTIS Mock AIME 2024-2025 benchmark added·Mar 26Claude Opus 4.1 pricing increased · $15/$75 per 1M tokens·Mar 25Grok 4.20 Beta launched by xAI·Mar 25Inception added as a tracked provider·Mar 24DeepSeek R1 0528 posted 87.2% on GPQA Diamond·Mar 243 new MCP servers in AI/ML category·Mar 23GPT-4o Audio Preview marked as deprecated·Mar 23Mistral Medium 3.1 input price cut to $0.40 per 1M tokens·Mar 22DeepSeek V3.2 Speciale released·Mar 22WeirdML benchmark now tracked on BenchGecko·Mar 20Nemotron 3 Super (120B) launched by NVIDIA·Mar 20Gemini 2.5 Flash Lite priced at $0.10/$0.40 per 1M tokens·Mar 18Mistral Large 3 2512 released by Mistral AI·Mar 18Grok Code Fast 1 added to agent rankings·Mar 16Claude Sonnet 4.5 scores 91.7% on MMLU·Mar 1612 new MCP servers added across 5 categories·Mar 14GPT-5.4 Pro launched · OpenAI's new flagship·Mar 14GPT-5.4 standard tier released by OpenAI·Mar 12Grok 3 Mini marked as deprecated by xAI·Mar 12Llama 3.3 Nemotron Super 49B pricing dropped·Mar 10Liquid added as a tracked provider·Mar 10MiniMax M2.7 released by MiniMax·Mar 8Grok 4 posted 89.4% on GPQA Diamond·Mar 8LAMBADA benchmark scores now tracked·Mar 5Gemini 2.5 Flash output price reduced to $2.50 per 1M tokens·Mar 5Mercury 2 launched by Inception·Mar 3Qwen3.5-Flash released by Alibaba Qwen·Mar 35 new MCP servers added · finance and auth categories·Apr 7Claude Mythos Preview · Anthropic's most capable model arrives·Mar 31GPT-5.4 Nano launched on OpenAI·Mar 31GPT-5.4 Mini joins the OpenAI lineup·Mar 30Claude Opus 4.5 input price dropped · $5.00 per 1M tokens·Mar 30Mistral Small 4 available via Mistral AI·Mar 29Gemini 2.5 Pro scores 94.1% on MMLU·Mar 29Grok 4.20 Multi-Agent Beta enters agent rankings·Mar 28DeepSeek V3.2 output price dropped · $0.38 per 1M tokens·Mar 287 new MCP servers added in dev-tools category·Mar 27Claude Sonnet 4.6 released by Anthropic·Mar 27Claude Opus 4.6 released by Anthropic·Mar 26OTIS Mock AIME 2024-2025 benchmark added·Mar 26Claude Opus 4.1 pricing increased · $15/$75 per 1M tokens·Mar 25Grok 4.20 Beta launched by xAI·Mar 25Inception added as a tracked provider·Mar 24DeepSeek R1 0528 posted 87.2% on GPQA Diamond·Mar 243 new MCP servers in AI/ML category·Mar 23GPT-4o Audio Preview marked as deprecated·Mar 23Mistral Medium 3.1 input price cut to $0.40 per 1M tokens·Mar 22DeepSeek V3.2 Speciale released·Mar 22WeirdML benchmark now tracked on BenchGecko·Mar 20Nemotron 3 Super (120B) launched by NVIDIA·Mar 20Gemini 2.5 Flash Lite priced at $0.10/$0.40 per 1M tokens·Mar 18Mistral Large 3 2512 released by Mistral AI·Mar 18Grok Code Fast 1 added to agent rankings·Mar 16Claude Sonnet 4.5 scores 91.7% on MMLU·Mar 1612 new MCP servers added across 5 categories·Mar 14GPT-5.4 Pro launched · OpenAI's new flagship·Mar 14GPT-5.4 standard tier released by OpenAI·Mar 12Grok 3 Mini marked as deprecated by xAI·Mar 12Llama 3.3 Nemotron Super 49B pricing dropped·Mar 10Liquid added as a tracked provider·Mar 10MiniMax M2.7 released by MiniMax·Mar 8Grok 4 posted 89.4% on GPQA Diamond·Mar 8LAMBADA benchmark scores now tracked·Mar 5Gemini 2.5 Flash output price reduced to $2.50 per 1M tokens·Mar 5Mercury 2 launched by Inception·Mar 3Qwen3.5-Flash released by Alibaba Qwen·Mar 35 new MCP servers added · finance and auth categories·

The AI Economy, Tracked.

今日のAI · Claude Mythos Preview · Anthropic's most capable model arrives

パルス32·不安定

バブル278%·不安定

GPT-5.5 Pro+4.0

Open Source16.2%

プロバイダーの状態 · 24時間ステータス全体 →

ランキング

すべて 994 →

Qwen3.5 397B A17B

DeepSeek V3.2 Speciale

GPT-5.1-Codex-Max

Gemini 3.1 Pro Preview

Claude Opus 4.6 (Fast)

バー幅 · 平均ベンチマークスコア · 色 · カテゴリ

話題アリーナ

パルス全体を見る →

Claude Mythos Preview

Claude Opus 4.6

DeepSeek V3.2 Speciale

タイルサイズ · 発言シェア · 色 · 7日間トレンド（緑上昇、赤下降）

The Pulse

エコノミー →

パルス

32

frothy

7d · +3 pts

バブル指数 · 構成要素

Valuation Premiumhealthy+2.1

Funding Accelerationhealthy+1.5

Concentration Riskhealthy0

Revenue Qualityhealthy+1.4

Capex Gaphealthy+0.3

最大変動 · Valuation Premium 上昇 2.1 pts

AI バブル指数278%

健全過熱気味過熱バブル

更新日 Jun 7·方法論·リサーチ·無料API·開発者

クロスレイヤーシグナル · 1 / 5

Step 3.5 Flash matches top-10 benchmark performance at 100% less cost than GPT-5.5 Pro.

最新のベンチマーク変動

Claude Mythos Preview

Qwen3.5 397B A17B

DeepSeek V3.2 Speciale

チップ効率レース

今日のAI

Claude Mythos Preview · Anthropic's most capable model arrives Mar 31

GPT-5.4 Nano launched on OpenAI Mar 31

GPT-5.4 Mini joins the OpenAI lineup Mar 30

Claude Opus 4.5 input price dropped · $5.00 per 1M tokens Mar 30

Mistral Small 4 available via Mistral AI Mar 29

Gemini 2.5 Pro scores 94.1% on MMLU Mar 29

Grok 4.20 Multi-Agent Beta enters agent rankings Mar 28

DeepSeek V3.2 output price dropped · $0.38 per 1M tokens Mar 287 new MCP servers added in dev-tools category Mar 27

Claude Sonnet 4.6 released by Anthropic Mar 27

Claude Opus 4.6 released by Anthropic Mar 26OTIS Mock AIME 2024-2025 benchmark added

その他の指標

Pulse rose +3 this week · GPT-5.5 Pro drove benchmark velocity.

AI Bubble Index

frothy · valuation premium leading the move.

Mindshare Pulse

Narrative energy spread across models · no single winner.

AICDI · Compute

Data-center intensity climbing · HBM bookings tight.

FCI · Foundries

TSMC N3 utilisation above 90% · queue deepening.

HBM3E scarcity driving GPU street prices up.

Lead times stretching past 52 weeks · supply cliff watch.

Capex / Rev Gap

Hyperscaler capex outpacing AI revenue by 3.4× · widening.

マトリクス · トップ20モデル

フルマトリクス →

#					ベンチマーク
1	GPT-5.5 Pro	99.9	$30.00	400K	3
2	Claude Mythos Preview	99.8	—	1000K	14
3	Qwen3.5 397B A17B	96.3	$0.39	262K	11
4	DeepSeek V3.2 Speciale	95.2	$0.40	164K	9
5	GPT-5.4 Pro	93.0	$30.00	1050K	8
6	GPT-5.1-Codex-Max	91.2	$1.25	400K	8
7	Gemini 3.1 Pro Preview	90.0	$2.00	1049K	23
8	Step 3.5 Flash	89.5	$0.10	262K	10
9	GPT-5 Chat	89.0	$1.25	128K	7
10	Qwen3.6 Plus	88.7	$0.33	1000K	11
11	DeepSeek R1 Distill Qwen 14B	88.3	—	—	11
12	HA Qwen2.5 72B Instruct Abliterated	87.5	—	—	6
13	GLM 5.1	87.0	$1.05	203K	12
14	GPT-5.2-Codex	85.4	$1.75	400K	9
15	Claude Instant	84.6	—	—	4
16	DeepSeek-V2 (MoE-236B, May 2024)	84.4	—	—	7
17	GPT-5.4	83.4	$2.50	1050K	16
18	Claude Opus 4.6 (Fast)	83.3	$30.00	1000K	12
19	GPT-5.1-Codex	82.8	$1.25	400K	8
20	MiMo-V2-Flash	81.7	$0.09	262K	11

スタック · 11のデータレイヤー

ベンチマーク、料金、コンテキスト · すべてのフロンティアモデル

プロバイダー

すべてのAI推論プロバイダーの可用性マトリクス

エージェント

SWE-bench · MLE-bench · OSWorldなど

ベンチマーク

主要ベンチマーク全体のスコア推移

リサーチライブラリ · 手法 · ノート · ソースマップ

エコノミー

バブル指数 · バリュエーション · 資金調達 · 時価総額

Kaito式アテンショントラッキング · 全シグナル対象

93 エンティティ

チップ · ファウンドリ · メモリ · システム · エネルギー

アービトラージファインダー · 代替ファインダー · 無料プラントラッカー

251用語 · 用語集 · 学習パス

ユニバーサル比較 · モデル · エージェント · プロバイダー

AIを学ぶ

すべてのパス →

パス · 7 用語

The AI Bubble Explained

Seven terms that decode whether AI is overpriced, fairly priced, or criminally underpriced. Read in order.

パス · 6 用語

Pick an AI Model

Six terms to go from "I need an AI" to "here is the cheapest model that meets my spec."

パス · 7 用語

From Sand to Model

The AI supply chain in 7 terms · foundry, memory, chip, system, datacenter, provider, API.

検索 297 AI用語 · トランスフォーマーからアテンションプレミアムまで開く →

注目の指標

AIエコシステムの健全性 · 0-100複合指標

フルチャートを見る →

AI バブル指数

現在の値 vs ドットコムピーク

フルチャートを見る →

話題アリーナ

モデル間の発言シェア

フルチャートを見る →

ランキング

平均ベンチマークスコア上位モデル

フルチャートを見る →

メモリ供給テンション指標

フルチャートを見る →

パラボリック設備投資

ハイパースケーラーAI設備投資の軌跡

フルチャートを見る →

方法論 · FAQ · フレッシュネス

方法論全文 →

BenchGeckoのデータはどのくらいの頻度で更新されますか？›

モデルとベンチマークデータはプライマリーソースから毎日更新されます。料金はローリングベースですべてのプロバイダーAPIから取得されます。話題シグナルは週次で集計されます。パルスは毎日UTC 00:00に再計算されます。

パルスとは何ですか？›

AIエコノミーの健全性を示す0-100の複合スコアです。逆バブル指数、ベンチマーク速度、料金圧縮、話題多様性、サプライチェーンテンションを1つの数値にブレンドしています。低いほど健全です。

ベンチマークスコアはどのように正規化されますか？›

すべてのベンチマークは、スコアが付けられたモデル全体で最小最大正規化されます。ランキングは、単一テストの過大評価を避けるため、モデルあたり3つ以上のベンチマ��クにわたる正規化スコアの平均です。

料金データはどこから取得していますか？›

プロバイダーAPIからの直接レスポンス · OpenRouter、OpenAI、Anthropic、Google、xAI、DeepSeek、Mistralなど。すべてのスナップショットはモデル詳細ページにソース帰属付きでキャッシュされます。

BenchGeckoのデータを引用できますか？›

はい。すべてのページにAPA、MLA、BibTeX、Chicago、プレーンテキスト形式の「共有 & 引用」バーが付いています。無料APIプランでは帰属表示が必須で、その他すべての場所でも推奨されます。

ソース ·OpenRouterEpoch AISWE-benchMCP RegistryChatbot ArenaHuggingFaceLiveBenchArtificial AnalysisSEALAider

2時間前に更新 · 10以上の信頼できるソース · 編集コンテンツなし·Learn · Glossary·リサーチ·Developers