Methodik
Wie wir Daten erheben, was wir erfassen und wie oft wir aktualisieren.
Datenquellen
OpenRouter API
TäglichModel pricing (9 tiers: input, output, cache read/write, reasoning, image, audio, web search, per-request), context windows, modalities, supported parameters, deprecation dates.
Epoch AI
WöchentlichBenchmark scores across 40+ benchmarks for 168+ models. Normalized 0-1 scores. Training compute and cost data for 3,200+ models.
SWE-bench
WöchentlichSoftware engineering task resolution rates across 6 leaderboard variants (Verified, Lite, Full, bash-only, Multilingual, Multimodal). Cost per instance. Open-source flags.
MCP Registry
Täglich4,000+ MCP server listings with package info, transport types, and repository links.
HuggingFace
WöchentlichModel metadata · parameter counts, downloads, likes, licenses, model types, and last modified dates for 650+ models.
Ollama Registry
WöchentlichLocally-runnable models · model names, sizes, quantization options for on-device inference.
Official Provider Reports
Bei VeröffentlichungBenchmark scores published by model providers (Anthropic, OpenAI, Google, Meta, etc.) in model cards and technical reports.
Benchmark-Ergebnisse
Wir zeigen Ergebnisse genau so an, wie sie von der Quelle gemeldet werden. Scores werden nicht angepasst, gewichtet oder benchmarkübergreifend normalisiert, sofern nicht ausdrücklich vermerkt. Jedes Ergebnis verlinkt nach Möglichkeit auf seine Originalquelle.
Wenn ein Modell mehrere Ergebnisse für denselben Benchmark hat (z. B. unterschiedliche Evaluierungseinstellungen), verwenden wir den offiziellen Score des Modellanbieters. Existiert kein offizieller Score, verwenden wir die aktuellste unabhängige Evaluierung.
Durchschnittlicher Score
Die Spalte „Durchschn." in der Bestenliste ist ein ungewichtetes arithmetisches Mittel über alle Benchmarks, in denen das Modell getestet wurde. Dies ist ein grober Anhaltspunkt, kein endgültiges Ranking. Modelle, die in mehr Benchmarks getestet wurden, können niedrigere Durchschnittswerte aufweisen, da sie schwierigeren Tests ausgesetzt waren.
Preise
Alle Preise stammen aus der öffentlichen API von OpenRouter und zeigen den besten verfügbaren Anbieter für jedes Modell. Preise werden pro 1 Million Tokens angezeigt. Wir erfassen 9 Preiskategorien: Eingabe, Ausgabe, Cache-Lesen, Cache-Schreiben, Bild, Audio, internes Reasoning, Websuche und Kosten pro Anfrage.
Preise werden täglich geprüft. Wenn eine Preisänderung erkannt wird, wird der neue Preis mit Zeitstempel erfasst. Historische Preisdaten werden gespeichert, aber derzeit nicht angezeigt.
Verf��gbarkeitsüberwachung
Die Anbieterverfügbarkeit wird durch leichtgewichtige Health-Check-Anfragen an die API-Endpunkte jedes Anbieters alle 60 Sekunden von US-East gemessen. Wir erfassen Antwortzeit (Latenz) und HTTP-Statuscode. Ein Anbieter wird als „eingeschränkt" markiert, wenn die durchschnittliche Latenz das 2-fache seiner 30-Tage-Basislinie übersteigt, und als „Ausfall", wenn Anfragen konsistent fehlschlagen.
Der Verfügbarkeitsprozentsatz wird über ein rollendes 30-Tage-Fenster berechnet. Dies zeigt die API-Endpunkt-Verfügbarkeit, nicht die Verf��gbarkeit einzelner Modelle.
Open-Source-Klassifizierung
Ein Modell wird als „Open Source" gekennzeichnet, wenn seine Gewichte öffentlich zum Download und zur Nutzung unter einer OSI-genehmigten Lizenz (Apache 2.0, MIT) oder einer permissiven Community-Lizenz (Llama Community License) verfügbar sind. Modelle mit „offenen Gewichten" unter restriktiven Lizenzen werden separat gekennzeichnet.
Aktualisierungshäufigkeit
| Datentyp | Häufigkeit |
|---|---|
| API-Preise | Täglich |
| Anbieterverfügbarkeit | Alle 60 Sekunden |
| Benchmark-Ergebnisse | Bei neuer Veröffentlichung + wöchentliche Prüfung |
| MCP Server | Täglich |
| GitHub Stars/Forks | Täglich |
| Modellverzeichnis | Täglich (von OpenRouter) |
Korrekturen
Wenn Sie einen Fehler in unseren Daten finden, eröffnen Sie bitte ein Issue in unserem GitHub-Repository oder kontaktieren Sie uns auf Twitter @BenchGecko. Wir nehmen Datengenauigkeit ernst und korrigieren Fehler innerhalb von 24 Stunden.
Erstellt vom BenchGecko-Team. Betrieben mit Daten aus dem offenen KI-Ökosystem.