방법론

데이터 수집 방법, 추적 항목, 업데이트 주기를 설명합니다.

데이터 출처

OpenRouter API

매일

Model pricing (9 tiers: input, output, cache read/write, reasoning, image, audio, web search, per-request), context windows, modalities, supported parameters, deprecation dates.

출처: https://openrouter.ai/api/v1/models라이선스: Public API, no authentication required

Epoch AI

매주

Benchmark scores across 40+ benchmarks for 168+ models. Normalized 0-1 scores. Training compute and cost data for 3,200+ models.

출처: https://epoch.ai/data라이선스: CC-BY 4.0

SWE-bench

매주

Software engineering task resolution rates across 6 leaderboard variants (Verified, Lite, Full, bash-only, Multilingual, Multimodal). Cost per instance. Open-source flags.

출처: https://www.swebench.com라이선스: Open data

MCP Registry

매일

4,000+ MCP server listings with package info, transport types, and repository links.

출처: https://registry.modelcontextprotocol.io라이선스: Open API

HuggingFace

매주

Model metadata · parameter counts, downloads, likes, licenses, model types, and last modified dates for 650+ models.

출처: https://huggingface.co/api/models라이선스: Public API, no authentication required

Ollama Registry

매주

Locally-runnable models · model names, sizes, quantization options for on-device inference.

출처: https://ollama.com/api/tags라이선스: Public API

Official Provider Reports

출시 시

Benchmark scores published by model providers (Anthropic, OpenAI, Google, Meta, etc.) in model cards and technical reports.

라이선스: Public

벤치마크 점수

벤치마크 점수는 원본 출처에서 보고된 그대로 표시합니다. 명시적으로 표기하지 않는 한 벤치마크 간 비교를 위해 점수를 조정, 가중, 정규화하지 않습니다. 각 점수는 가능한 경우 출처에 링크합니다.

하나의 모델에 동일 벤치마크에 대한 여러 점수가 있는 경우(예: 평가 설정 차이), 모델 프로바이더가 공식 발표한 점수를 사용합니다. 공식 점수가 없는 경우, 가장 최근의 독립 평가를 사용합니다.

평균 점수

순위표의 "평균" 열은 해당 모델이 테스트된 모든 벤치마크에 대한 비가중 산술 평균입니다. 이는 대략적인 신호이며, 확정적인 순위가 아닙니다. 더 많은 벤치마크에서 테스트된 모델은 난이도가 높은 테스트에 노출되어 평균이 낮아질 수 있습니다.

가격

모든 가격 정보는 OpenRouter의 공개 API에서 수집하며, 각 모델의 최상위 가용 프로바이더를 기준으로 합니다. 가격은 1M tokens당으로 표시합니다. 입력, 출력, 캐시 읽기, 캐시 쓰기, 이미지, 오디오, 내부 추론, 웹 검색, 요청당 수수료 등 9가지 가격 계층을 추적합니다.

가격은 매일 확인합니다. 가격 변동이 감지되면 타임스탬프와 함께 새 가격을 기록합니다. 과거 가격 데이터는 저장하고 있으나 현재 표시하지 않습니다.

가동률 모니터링

프로바이더 가동률은 US-East에서 60초마다 각 프로바이더의 API 엔드포인트에 경량 상태 확인 요청을 보내 측정합니다. 응답 시간(지연 시간)과 HTTP 상태 코드를 기록합니다. 평균 지연 시간이 30일 기준선의 2배를 초과하면 "성능 저하"로, 요청이 지속적으로 실패하면 "장애"로 표시합니다.

가동률 백분율은 30일 롤링 윈도우 기준으로 산출합니다. 이는 API 엔드포인트 가용성을 반영하며, 개별 모델 가용성과는 다릅니다.

Open Source 분류

모델의 가중치가 OSI 승인 라이선스(Apache 2.0, MIT) 또는 허용적 커뮤니티 라이선스(Llama Community License)하에 공개적으로 다운로드 및 사용 가능한 경우 "Open Source"로 표시합니다. 제한적 라이선스하의 "공개 가중치" 모델은 별도로 표시합니다.

업데이트 주기

데이터 유형	주기
API 가격	매일
프로바이더 가동률	60초마다
벤치마크 점수	새 출시 시 + 주간 점검
MCP 서버	매일
GitHub 스타/포크	매일
모델 디렉터리	매일 (OpenRouter 기준)

정정

데이터 오류를 발견하시면 GitHub 리포지토리에 이슈를 등록하시거나 Twitter @BenchGecko로 연락해 주십시오. 데이터 정확성을 중시하며, 24시간 이내에 오류를 수정합니다.

BenchGecko 팀이 제작하였습니다. 개방형 AI 생태계의 데이터를 기반으로 합니다.