예측 일지 #1 — AI는 주가를 맞힐까? 예측 봇 6개를 한 달 돌려봤다

LDBD를 만들면서 줄곧 머리에 있던 질문이 있다. 그래서 AI가 주가는 맞히긴 하나? 만든 사람 입장에선 못 맞혀도 곤란하고, 너무 잘 맞히면 그것대로 의심스럽다.

그래서 3개 모델(Claude · Gemma · ChatGPT)을 두 가지 timeframe(1일, 1주)로 나눠서 봇 6개를 한 달 이상 동시에 운영했다. Gemma와 ChatGPT는 같은 watchlist를 썼고, Claude도 거의 같은 watchlist지만 일부 자산이 달랐다. 결론부터 말하면 — LDBD 메인 점수 기준 6개 AI 봇 중 1위는 내 노트북에서 도는 무료 Gemma 4가 차지했다.다만 여기서 “1위”는 6개 AI 봇 사이의 첫 달 순위 기준이지, 시장이나 “항상 상승”을 찍는 단순 규칙을 이겼다는 뜻은 아니다. 전체 기간 상승만 찍은 봇과는 0.007점 차로 사실상 동급이고, 30일 같은 윈도우의 단순 규칙 1등들과 비교하면 AI 봇들이 모두 진다. 한 달이라는 표본은 하나의 시장 국면만 본 셈이라 결론짓기는 이르다.

이 글은 LDBD 개발 로그가 아닌 예측 일지 시리즈 1편이다. 봇 코드와 프롬프트를 계속 개선해가면서, 매 사이클마다 가설·변경·결과를 그대로 기록하는 게 목표다. 첫 회는 기준선 설정과 한 달간의 결과 비교로 시작해 본다.

봇 3종 요약

그동안 개발 로그에서 AI 봇 만들기 글을 세 편 썼다. 각 봇이 무엇을 보고 어떻게 답하는지 짧게 다시 정리한다.

1. Claude (Claude Desktop + MCP)

내 Claude Desktop 구독에 LDBD MCP 커넥터를 붙이고 스케줄 태스크로 매일 자동 실행. Claude 내장 웹검색으로 뉴스를 찾고 LDBD MCP로 가격·센티먼트를 조회한 뒤 직접 예측을 제출한다. 자세한 셋업은 Claude Desktop으로 매일 자동 예측 봇 만들기.

2. Gemma 4 (로컬, MLX)

Apple MLX 네이티브 경로로 gemma-4-26b-a4b-it-4bit(4bit quantized)를 M5 Pro Mac에서 직접 실행. yfinance에서 뉴스 5건을 가져와 LDBD 가격·센티먼트와 함께 프롬프트에 넣고 JSON 응답을 받는다. API 비용 0원, 인터넷 없어도 됨. 노트북에서 무료 LLM으로 매일 자동 예측 봇에 처음부터 끝까지의 설치 가이드를 정리해뒀다.

3. ChatGPT (gpt-5.4 + web_search)

OpenAI Responses API 직접 호출. GPT가 직접 web_search 도구로 최신 뉴스를 찾고 structured outputs(json_schema strict)로 응답이 강제된다. yfinance도 regex도 안 쓴다. ChatGPT API로 LDBD 봇 만들기에 코드와 launchd 셋업까지 들어있다.

이 세 봇을 각각 두 identity로 분리해서 daily(1d 예측)와 weekly(1w 예측)를 따로 운영했다. 같은 자산이라도 1일과 1주는 보는 시야가 다르니 결과도 다르게 나올 거라 봤다. 실제로 결과가 꽤 달랐다.

실험 셋업

봇 6종: Claude daily / Claude weekly / Gemma daily / Gemma weekly / ChatGPT daily / ChatGPT weekly.

watchlist:Gemma와 ChatGPT는 공통이다 — VOO(S&P 500), QQQ(NASDAQ 100), GLD(금), BTC-USD(비트코인), 069500.KS(KODEX 200, KOSPI 200을 추종하는 한국 ETF). Claude도 거의 같은 watchlist를 쓰지만 스케줄 태스크 프롬프트 특성상 일부 자산이 달랐다. 같은 시점·같은 자산에서 봇끼리 비교할 수 있는 케이스가 충분히 많아 head-to-head 분석은 의미가 있다. 운영 중 가끔 봇이 watchlist 밖 자산을 제출한 경우도 있지만 횟수는 적다.

기간: 가장 빨리 시작한 봇이 2026-04-19(Claude weekly), 가장 늦은 봇이 2026-05-04(ChatGPT daily)이다. 데이터 추출 기준일은 2026-06-04. 즉 봇별로 운영 일수가 다르지만 시간이 더 쌓이면 자연히 평탄해질 부분이다.

제출된 예측 총 500건, 결과 확정 426건. 시간이 충분히 지나 결과가 확정된 예측이 분석 대상이다. (결과 확정은 새벽 cron이 yfinance·CoinGecko로 종가를 가져와 자동 처리한다.)

모든 AI 봇이 현재로선 가장 단순한 구성이다. 프롬프트 튜닝이나 입력 feature 가공 같은 거 거의 안 했다. 모델에게 가격 30일치와 뉴스 몇 건을 넣고 “방향만 골라”라고 했다. 이번 시리즈는 여기서 출발한다.

그리고 비교 기준선 역할로 LDBD에는 단순 규칙 봇 18개가 따로 돌아간다 — 자산 6개 × { always-bull, always-bear, random } 셋씩. AI 봇이 단순 규칙보다 잘 하는지를 매번 자동으로 검증하는 장치다. 이 글에서는 두 그룹을 분명히 구분한다 — AI 봇 (Claude/Gemma/ChatGPT × daily/weekly, 6개) vs 단순 규칙 봇 (always-bull 등, 18개).

대표 점수: 보정 평균 (adjusted avg)

LDBD 리더보드와 프로필에 가장 크게 표시되는 점수는 보정 평균이다. 단순한 평균(누적 점수 / 결과 확정 건수)이 아니라:

보정 평균 = 누적 점수 / (결과 확정 건수 + 20)

분모에 20을 더하는 이유는 표본이 작을 때 운이 좋아서 1등이 되는 걸 막으려는 것이다. 새 봇이 첫 예측 한 건을 잘 맞춰 +1.5점을 받으면 단순 평균은 +1.5로 즉시 리더보드 최상단을 차지한다. 분모에 가상의 0점 예측 20건을 미리 깔아두면 새 봇은 1.5/21, 즉 약 +0.07부터 시작해서 더 많은 좋은 예측을 누적해야 위로 올라간다. 표본이 충분히 커지면 (N이 20보다 훨씬 클 때) 효과가 거의 사라져 단순 평균과 수렴한다.

한 예측당 점수 변화(score_delta) 공식은 이렇다:

(correct ? +1 : −1) × |return|^0.7 × T_weight × contrarian × 100

T_weight는 timeframe별 가중치(1d=1.0, 1w=0.75, 1m=0.5)이고, contrarian은 시장이 장기적으로 자주 가는 방향과 반대로 맞혔을 때 가중치를 키워주는 계수(0.5~2.0 범위)다. 평소 잘 오르는 자산에 “상승”을 찍어 맞히는 건 누구나 할 수 있으니 점수를 적게 주고, 반대로 “하락” 쪽을 찍어 맞히면 보상을 더 준다.

이번 글의 모든 표·차트는 이 보정 평균을 메인으로 한다. 단순 평균은 참고용으로 표 옆에 함께 보여준다.

한 달 결과 — 봇 6개

보정 평균 높은 순.

봇	결과 확정	적중률	보정 평균	단순 평균	누적 점수
Gemma weekly	29	65.5%	+0.828	+1.400	+40.6
ChatGPT weekly	21	57.1%	+0.597	+1.165	+24.5
ChatGPT daily	100	60.0%	+0.576	+0.691	+69.1
Claude weekly	23	73.9%	+0.444	+0.830	+19.1
Claude daily	125	51.2%	−0.015	−0.017	−2.1
Gemma daily	128	50.8%	−0.034	−0.039	−5.1

단순 평균과 보정 평균 차이가 weekly 봇에서 크다(예: Gemma weekly 단순 +1.400 → 보정 +0.828). N=29에 +20을 더한 분모라서 효과가 크게 작용한 것이다. daily 봇처럼 N=120~128쯤 되면 둘 사이 차이가 0.005 미만이다. 표본이 작은 봇일수록 단순 평균이 부풀어 보인다는 게 이번 결과의 핵심 단서다.

점수 비교

막대로 보면 눈에 띄는 게 셋이다.

1주 봇이 1, 2, 4등. Gemma weekly · ChatGPT weekly · Claude weekly 순서. 그 사이에 ChatGPT daily(3위)가 끼어있다. weekly 봇들은 표본이 작아 단순 평균과 보정 평균 차이가 크지만, 그래도 daily 봇 둘보단 분명히 위에 있다.
노트북 Gemma weekly가 1위. 보정 평균 +0.828, 적중률 65.5%. OpenAI API + web_search를 쓰는 ChatGPT weekly(+0.597)도, Claude Desktop 구독을 쓰는 Claude weekly(+0.444)도 앞섰다. 다만 표본 29건이라 결과가 흔들릴 여지가 충분히 있다.
Claude weekly 적중률 73.9%로 최고지만 평균은 4위. 작게 맞히고 크게 틀린 일이 종종 있었다는 뜻이다. 한국 자산 등 변동성 큰 자산에서 방향을 틀리고, 미국 지수에서 작게 맞힌 패턴이다.

시간축으로 보면

다음은 봇별 누적 보정 평균이 주차별로 어떻게 움직였는지 본 그림이다.

weekly 봇들이 첫 1~3주에 강한 양수를 찍고 점점 평균으로 끌려간다(평균회귀). daily 봇들은 처음부터 0 근처에서 진동한다. ChatGPT weekly가 첫 평가 주에 +1.416까지 튀어 오른 건 1주 예측이 한두 건일 때의 자연 노이즈에 가깝다.

그래서 AI 봇이 그냥 “항상 상승” 봇보다 나은가?

진짜 알고 싶은 건 이거다. AI가 뉴스 읽고 가격 보고 답한 게 — 매번 “상승”만 찍는 봇보다 나은가? 앞에서 짚은 단순 규칙 봇 18개가 이 질문에 직접 답하는 장치다. 예전 글에서 짚은 “항상 상승만 찍으면 이기는 거 아니야?” 질문이 그대로 코드가 된 셈이다.

단순 규칙 18봇과의 비교는 두 가지로 나눠서 본다. 하나는 전체 기간 평균 — 안정적이지만 AI 봇이 보지 않은 수년치 과거 데이터가 들어있다. 다른 하나는 같은 30일 윈도우 — 공정한 비교지만 표본이 작고 시장 국면 하나에 흔들린다. 둘 다 어딘가 한쪽으로 치우쳐 있어서 두 그림을 같이 봐야 한다.

먼저 전체 기간. 단순 규칙 18봇은 과거 가격 데이터로 수년치를 백필해두고, 이후로도 매일 자동 제출한다(자산당 5천~7천 건 누적). 그래서 평균 점수는 장기 시장 편향이 반영된 기준선에 가깝다.

전략	적중률 (전체 기간)	보정 평균 (6봇 평균)	가장 좋은 봇
bull (항상 상승)	57.2%	+0.630	qqq_bull +0.821
random (50:50)	50.2%	−0.143	kosdaq_random −0.005
bear (항상 하락)	42.8%	−0.954	kosdaq_bear −0.420

주식·지수는 장기적으로 우상향이라 “항상 상승” 봇만 돌려도 자연히 평균 점수가 +0.630이 된다. 이게 AI 봇들이 넘어야 하는 진짜 기준선이다. 가장 강한 상승 봇은 qqq_bull(+0.821)로, AI 봇 중에서는 오직 Gemma weekly(+0.828)만 이걸 0.007점 차로 앞섰다. 두 비교의 표본 크기 차이(Gemma 29건 vs qqq_bull 7,416건)가 매우 커서 한 달 결과만 두고 단정할 수는 없다.

막대로 펼쳐 보면 1위 Gemma weekly와 2~5위 상승 봇들(qqq · kospi · voo · gld bull)이 거의 한 띠에 모여 있다. AI 봇이 한 발 앞서기는 했지만 차이가 매우 작다.

그런데 단순 규칙도 한 달만 떼서 보면 그림이 다르다

전체 기간 평균은 안정적이지만, AI 봇들이 본 게 정확히 그 전체 기간은 아니다. 그래서 단순 규칙 18봇을 AI와 똑같은 30일 윈도우(2026-05-04~2026-06-04)에서 재집계했다. 게다가 AI 봇은 1d 또는 1w 한 timeframe만 제출하지만 단순 규칙은 1d·1w·1m 셋 다 제출하므로, 공정 비교를 위해 timeframe별로 분리했다.

먼저 30일 윈도우의 단순 규칙 전략별 평균이다.

전략	결과 확정 (1d+1w+1m)	30일 적중률	30일 보정 평균 (6봇 평균)	비교 (전체 기간)
bull	243	51.4%	+0.058	+0.630
random	243	48.1%	−0.579	−0.143
bear	243	48.6%	−0.700	−0.954

흥미롭게도 한 달 윈도우만 보면 상승 봇의 우위가 거의 사라진다(+0.058). 같은 윈도우에서 하락 봇은 전체 기간(−0.954)보다 오히려 덜 부진하다(−0.700). 즉 지난 한 달은 전체 기간처럼 일방적 강세 국면이 아니었다 — 한국 자산·비트코인 등 일부는 하락했고, 그 자산을 향해 하락을 찍은 봇들이 큰 점수를 얻었다.

더 결정적인 건 각 timeframe별 best 단순 규칙이다. 전체 기간 비교에서는 같은 봇이 1d·1w·1m를 다 합쳐서 한 점수로 나왔는데, AI는 한 timeframe만 하니까 timeframe을 맞춘 비교가 필요하다. 아래는 30일 윈도우에서 timeframe별로 best 단순 규칙 5개를 뽑은 표다.

30일 단순 규칙 Top 5 — 1d (AI daily 비교용)

봇	n	적중률	보정 평균
kosdaq_bear	16	75.0%	+1.356
kospi_random	17	64.7%	+1.320
kospi_bull	17	70.6%	+1.219
kosdaq_random	16	62.5%	+0.625
qqq_bull	20	65.0%	+0.607
ChatGPT daily (AI 최고)	100	60.0%	+0.576

30일 단순 규칙 Top 5 — 1w (AI weekly 비교용)

봇	n	적중률	보정 평균
kospi_bull	17	76.5%	+3.051
btc_bear	25	76.0%	+2.471
kosdaq_bear	17	70.6%	+1.551
qqq_bull	17	70.6%	+1.242
gld_bear	17	76.5%	+1.008
Gemma weekly (AI 최고)	29	65.5%	+0.828

AI 봇과 비교하면 두 가지가 보인다.

AI daily 최고는 ChatGPT daily(+0.576). 30일 단순 규칙 1d Top 5는 +0.607~+1.356 구간이라 ChatGPT daily는 Top 5에 못 든다.
AI weekly 최고는 Gemma weekly(+0.828). 30일 단순 규칙 1w Top 5는 +1.008~+3.051이라 역시 Top 5 밖이다.

다시 정리하면, AI가 아무 생각 없이 상승만 찍는 봇보다 낫다고 말하기엔 아직 부족하다. 첫 달 결과만 보면 Gemma weekly가 가장 가까이 갔지만, 같은 기간 운 좋게 한 자산의 방향을 잘 잡은 단순 규칙 봇들까지 포함하면 AI 봇들은 아직 밀린다. 다만 30일 best 단순 규칙들은 표본이 15~25건 수준이라 다음 30일에 같은 봇이 또 1등할 확률은 낮다.

자산별로 보면 — 한국 주식과 비트코인은 AI가 졌다

daily 봇 3개를 합쳐서 자산별 평균을 보고, 같은 자산의 상승 규칙과 비교했다. 표본이 자산당 50~80건 수준이라 리더보드의 +20 보정이 일부 작용하지만, 비교는 단순 평균으로 보는 게 해석이 명료하다(양쪽 다 단순 평균).

자산	AI daily 적중률	AI 평균 (단순)	상승 규칙 평균 (단순)	승자
VOO (S&P 500)	68.9%	+0.905	+0.288	AI ✓
QQQ (NASDAQ 100)	59.5%	+0.837	+0.354	AI ✓
GLD (금)	47.8%	+0.181	+0.225	tie
BTC-USD	38.8%	−0.415	+0.125	bull ✓
069500.KS (KODEX 200)	51.0%	−0.996	+0.304	bull ✓✓

S&P 500과 NASDAQ에서는 AI가 상승 규칙을 분명히 앞서지만, 비트코인과 KODEX 200은 그냥 “항상 상승”을 찍은 봇한테 졌다. 특히 KODEX 200은 차이가 1.3점이나 난다 — AI 셋이 한국 시장에 대해 자꾸 비관적으로 답했는데 실제로는 5월 하순에 큰 폭으로 오른 영향이다 (아래 reasoning 샘플에서 정확히 그 장면이 나온다).

두 봇이 갈렸을 때 누가 맞았나

같은 자산 · 같은 시각에 두 봇이 정반대 방향으로 답한 케이스만 뽑아서, 어느 쪽이 맞았는지 셌다.

pair	A 승	B 승	A 승률
ChatGPT daily vs Claude daily	21	11	65.6% (ChatGPT)
ChatGPT daily vs Gemma daily	16	7	69.6% (ChatGPT)
Claude daily vs Gemma daily	19	19	50.0% (동률)
Claude weekly vs Gemma weekly	3	1	75.0% (Claude, n=4)
ChatGPT weekly vs Gemma weekly	1	3	75.0% (Gemma, n=4)

daily에서는 의견이 갈렸을 때 ChatGPT가 다른 두 모델을 60~70% 승률로 이긴다. Claude와 Gemma가 의견 갈렸을 땐 정확히 50:50으로 무승부 — 두 모델은 비슷한 강도로 비슷하게 헤맨다는 뜻이다. weekly 비교는 표본이 4건 정도라 단정할 수준은 아니다.

같은 시점, 같은 자산 — 봇마다 어떻게 다르게 답했나

점수표만 보면 봇이 숫자로만 보인다. 그런데 LDBD에서 진짜 재미있는 건 점수 뒤의 reasoning이다. 모든 예측의 reasoning은 공개되기 때문에, 같은 자산을 같은 시점에 본 봇 셋이 뭐라고 다르게 썼는지 나란히 놓고 읽을 수 있다 — 클릭 한 번이면 된다.

2026년 5월 29일, KODEX 200(069500.KS)이 하루 만에 +3.55% 급등한 직후의 3봇 답변이다. (아래 모든 reasoning은 LDBD에 실제 제출된 원문을 길이 맞춰 축약한 것이고, 영어 원문은 한국어로 의역했다. 전체 원문은 각 예측의 /p/[id] 페이지에서 그대로 읽을 수 있다.)

2026-05-29 · 069500.KS (KODEX 200)

Claude daily

하락 ✗

코스피 5/29 +3.55% 급등 후 차익실현 압력 예상. 개인(-1.4조)·외국인(-1조) 순매도 속 기관 단독 매수로 올린 랠리는 다음 날 되돌림 가능성 높음. 단기 과열 구간.

Gemma daily

상승 ✓

최근 10일간의 가격 추세가 강력한 상승 모멘텀을 유지. 5월 29일의 급등은 매수세가 여전히 강력함을 시사. 5월 28일 소폭 조정 이후 즉각 반등 — 단기 상승세 지속 예상.

ChatGPT daily

상승 ✓

최근 10거래일 종가 113,340 → 134,815원으로 급반등, 마지막 하루 +3.7%로 고점 돌파 흐름. 5/29 연합뉴스 "코스피가 29일 상승" 보도와도 일치 — 단기 모멘텀 지속.

Claude는 차익 실현·되돌림 시나리오를 잡았고 두 모델은 모멘텀 지속을 봤다. 결과는 모멘텀 쪽이 맞았다. 흥미로운 건 Claude 추론이 데이터(개인·외국인 순매도, 기관 단독 매수)를 더 구체적으로 들이댔는데 결과는 그 반대였다는 점이다. 잘 짜인 reasoning이 반드시 맞는 답을 만들지는 않는다.

또 한 사례를 본다. 2026년 6월 2일 VOO(S&P 500)이다.

2026-06-02 · VOO (Vanguard S&P 500 ETF)

Claude daily

하락 ✓

S&P 500 6/2 7,600 신고가 마감, Marvell +32% 칩 euphoria로 4세션 연속 상승 끝 ~$698. 다만 6/3 Dow 선물 약세 + Iran 긴장 속 Polymarket 트레이더들이 베어리시 포지션. 1일 콜은 단기 차익실현 위험이 모멘텀을 앞선다.

Gemma daily

상승 ✗

최근 10일간 꾸준한 우상향 추세를 유지하며 $700 돌파 목전의 강력한 상승 모멘텀이 확인됨. "VOO and Chill" 기사 등 1조 달러 규모 달성 기조 긍정적.

ChatGPT daily

상승 ✗

최근 10거래일 종가 674.59 → 698.26, 거의 쉬지 않는 상승. 6/2 신고가권 유지 — 단기 모멘텀 살아있음. ADP 고용·ISM 등 매크로 이벤트 대기 중이지만 트렌드 우위.

이번엔 반대로 Claude의 mean-reversion(평균회귀) 시나리오가 맞았고, 두 모델의 모멘텀 지속론이 틀렸다. 같은 두 모델이 사례 하나에서 이기고 다른 사례에서 진다 — 한두 케이스로 어느 봇이 더 똑똑한지 말하기 어려운 이유다.

💡 LDBD에선 봇뿐 아니라 일반 사용자의 예측도 reasoning이 공개된다. 자산 페이지(예 /asset/069500.KS)에서 같은 자산에 대한 여러 예측을 한 번에 보거나, 각 예측의 /p/[id] 페이지에서 reasoning 전문을 읽을 수 있다. 사람과 AI가 같은 시장 신호를 어떻게 다르게 해석하는지 비교하는 자체가 LDBD의 재미 중 하나다.

그래서, 결론을 내려면

지금 데이터로 자신 있게 말할 수 있는 건 별로 없다. 짚고 가야 할 것들이 많아서다.

(a) 표본이 작다 — 특히 weekly

weekly 봇은 일주일에 5건 내외 제출이라 한 달이면 20~30건이다. 1위라는 헤드라인도 표본 29건 안에서 만들어진 비율이다. 6:4로만 나뉘어도 등수가 흔들리는 표본 크기라, 2~3배는 더 누적되어야 진지하게 비교할 수 있다.

(b) 시장 국면 하나만 봤다

2026년 4월 중순부터 6월 초까지는 미국 지수가 전반적으로 우상향한 구간이었다. 상승 규칙 전체 기간 평균이 +0.630, qqq_bull은 +0.821까지 갈 정도다. 횡보장이나 하락장 데이터가 같이 있어야 진짜 실력이 분리된다.

(c) 운영 일수가 봇마다 다르다 — 시간이 해결할 부분

ChatGPT는 5월 초에야 추가됐고, Claude weekly는 5월 17일 이후 스케줄이 한 번 끊겼다(Claude Desktop의 스케줄 태스크 쪽 일시 이슈). 모든 봇이 같은 47일을 본 게 아니다. 다만 운영을 충분히 길게 하면 시작일 차이는 점점 무의미해진다.

(d) 한 모델 = 한 봇이 아니다

Claude는 사용자(나)의 구독 인스턴스라 정확한 모델 버전이 그날그날 다르다. Gemma는 4bit quantized라 원본과 답이 다를 수 있다. ChatGPT도 gpt-5.4 응답이 항상 같다는 보장은 없다. 봇 식별자가 곧 모델 식별자는 아니다.

마무리 — 승리 선언이 아니라 기준선 설정

이번 글의 결론은 “Gemma가 시장을 이겼다”가 아니다. 더 정확히는, 첫 달 기준 Gemma weekly가 6개 AI 봇 중 가장 좋은 출발선을 만들었다는 것이다.

하지만 AI 봇들이 단순 규칙을 확실히 이겼다고 말하기엔 아직 부족하다. 같은 30일 윈도우의 best 단순 규칙에는 모두 졌다. 그래서 이 글은 결론이 아니라 출발점이다. 앞으로 프롬프트를 바꾸고 입력 feature를 늘리면서 이 기준선이 실제로 움직이는지 보는 게 다음 회차들의 일이다.

앞으로는 예측을 강화하기 위한 자료들을 찾아 점진적으로 적용해 보면서, 단순 규칙 봇들을 확실히 이길 수 있는 방법이 있을지 탐색해 볼 예정이다. 그리고 AI 봇 6개와 단순 규칙 18봇도 계속 돌린다. 더 긴 기간이 쌓이면 이번 표가 어떻게 바뀌는지를 같은 형식으로 다시 정리할 예정이다.

LDBD의 재미는 여기서 시작된다. 말로 “이 모델이 더 똑똑하다”고 주장하는 게 아니라, 매일 제출된 예측과 reasoning이 시간이 지나 점수로 남는다. 봇들의 실제 예측과 reasoning은 /leaderboard에서 timeframe 필터를 걸어 볼 수 있고, 같은 자산에 대한 여러 예측은 자산 페이지(예 /asset/QQQ)에서 한꺼번에 비교할 수 있다.

시리즈 다음 글: 첫 개선 시도 (어떤 봇부터 어디를 손볼지는 아직 미정).