Methodik

Wie wir Daten erheben, was wir erfassen und wie oft wir aktualisieren.

Datenquellen

OpenRouter API

Täglich

Model pricing (9 tiers: input, output, cache read/write, reasoning, image, audio, web search, per-request), context windows, modalities, supported parameters, deprecation dates.

Quelle: https://openrouter.ai/api/v1/modelsLizenz: Public API, no authentication required

Epoch AI

Wöchentlich

Benchmark scores across 40+ benchmarks for 168+ models. Normalized 0-1 scores. Training compute and cost data for 3,200+ models.

Quelle: https://epoch.ai/dataLizenz: CC-BY 4.0

SWE-bench

Wöchentlich

Software engineering task resolution rates across 6 leaderboard variants (Verified, Lite, Full, bash-only, Multilingual, Multimodal). Cost per instance. Open-source flags.

Quelle: https://www.swebench.comLizenz: Open data

MCP Registry

Täglich

4,000+ MCP server listings with package info, transport types, and repository links.

Quelle: https://registry.modelcontextprotocol.ioLizenz: Open API

HuggingFace

Wöchentlich

Model metadata · parameter counts, downloads, likes, licenses, model types, and last modified dates for 650+ models.

Quelle: https://huggingface.co/api/modelsLizenz: Public API, no authentication required

Ollama Registry

Wöchentlich

Locally-runnable models · model names, sizes, quantization options for on-device inference.

Quelle: https://ollama.com/api/tagsLizenz: Public API

Official Provider Reports

Bei Veröffentlichung

Benchmark scores published by model providers (Anthropic, OpenAI, Google, Meta, etc.) in model cards and technical reports.

Lizenz: Public

Benchmark-Ergebnisse

Wir zeigen Ergebnisse genau so an, wie sie von der Quelle gemeldet werden. Scores werden nicht angepasst, gewichtet oder benchmarkübergreifend normalisiert, sofern nicht ausdrücklich vermerkt. Jedes Ergebnis verlinkt nach Möglichkeit auf seine Originalquelle.

Wenn ein Modell mehrere Ergebnisse für denselben Benchmark hat (z. B. unterschiedliche Evaluierungseinstellungen), verwenden wir den offiziellen Score des Modellanbieters. Existiert kein offizieller Score, verwenden wir die aktuellste unabhängige Evaluierung.

Durchschnittlicher Score

Die Spalte „Durchschn." in der Bestenliste ist ein ungewichtetes arithmetisches Mittel über alle Benchmarks, in denen das Modell getestet wurde. Dies ist ein grober Anhaltspunkt, kein endgültiges Ranking. Modelle, die in mehr Benchmarks getestet wurden, können niedrigere Durchschnittswerte aufweisen, da sie schwierigeren Tests ausgesetzt waren.

Preise

Alle Preise stammen aus der öffentlichen API von OpenRouter und zeigen den besten verfügbaren Anbieter für jedes Modell. Preise werden pro 1 Million Tokens angezeigt. Wir erfassen 9 Preiskategorien: Eingabe, Ausgabe, Cache-Lesen, Cache-Schreiben, Bild, Audio, internes Reasoning, Websuche und Kosten pro Anfrage.

Preise werden täglich geprüft. Wenn eine Preisänderung erkannt wird, wird der neue Preis mit Zeitstempel erfasst. Historische Preisdaten werden gespeichert, aber derzeit nicht angezeigt.

Verf��gbarkeitsüberwachung

Die Anbieterverfügbarkeit wird durch leichtgewichtige Health-Check-Anfragen an die API-Endpunkte jedes Anbieters alle 60 Sekunden von US-East gemessen. Wir erfassen Antwortzeit (Latenz) und HTTP-Statuscode. Ein Anbieter wird als „eingeschränkt" markiert, wenn die durchschnittliche Latenz das 2-fache seiner 30-Tage-Basislinie übersteigt, und als „Ausfall", wenn Anfragen konsistent fehlschlagen.

Der Verfügbarkeitsprozentsatz wird über ein rollendes 30-Tage-Fenster berechnet. Dies zeigt die API-Endpunkt-Verfügbarkeit, nicht die Verf��gbarkeit einzelner Modelle.

Open-Source-Klassifizierung

Ein Modell wird als „Open Source" gekennzeichnet, wenn seine Gewichte öffentlich zum Download und zur Nutzung unter einer OSI-genehmigten Lizenz (Apache 2.0, MIT) oder einer permissiven Community-Lizenz (Llama Community License) verfügbar sind. Modelle mit „offenen Gewichten" unter restriktiven Lizenzen werden separat gekennzeichnet.

Aktualisierungshäufigkeit

Datentyp	Häufigkeit
API-Preise	Täglich
Anbieterverfügbarkeit	Alle 60 Sekunden
Benchmark-Ergebnisse	Bei neuer Veröffentlichung + wöchentliche Prüfung
MCP Server	Täglich
GitHub Stars/Forks	Täglich
Modellverzeichnis	Täglich (von OpenRouter)

Korrekturen

Wenn Sie einen Fehler in unseren Daten finden, eröffnen Sie bitte ein Issue in unserem GitHub-Repository oder kontaktieren Sie uns auf Twitter @BenchGecko. Wir nehmen Datengenauigkeit ernst und korrigieren Fehler innerhalb von 24 Stunden.

Erstellt vom BenchGecko-Team. Betrieben mit Daten aus dem offenen KI-Ökosystem.