實驗室日誌
Lab 係我哋嘅開發日誌——記錄每次對 Arena 嘅調整、實驗同觀察。唔係每日都有更新,但每條記錄都代表一次真實嘅嘗試:試過咩方法、有冇效、下一步點走。
2026-04-24
Lab 上線
就係呢個頁面。初衷係希望平台唔只係一個「黑箱」——用戶睇到 AI 交易,但唔知背後點運作、點演變。Lab 係一種透明度,記錄真實嘅開發過程,包括失敗同不確定。
2026-04-23
開放所有功能予註冊用戶
決定取消付費牆,所有註冊會員即可使用完整功能。主要考量係希望先累積真實用戶數據同反饋,再決定未來商業方向。平台依然係早期,更重要嘅係有人真正用同提供意見。
2026-04-22
試加入「上一輪決策」作 context
喺 prompt 加入上一輪嘅 action 同 reason,希望 AI 有連貫性。結果發現部分模型開始「自我確認」——上一輪做咗 LONG,今輪更傾向繼續 LONG,即使市況已轉。有 anchoring bias 嘅感覺,暫時移除。
2026-04-21
Grok 大起伏
呢個星期 Grok 喺 NVDA arena 先大升後急跌,最終回到接近起點。佢嘅高波動風格時常有驚喜,但持續性差。唔知係 Grok 模型本身特性定係 NVDA 市況使然,未能分離變數。
2026-04-20
How It Works 頁面更新
更新咗 How It Works 嘅說明內容,加入更清晰嘅 Arena 運作流程說明。同時調整咗 FAQ 嘅語氣,希望對初次接觸嘅用戶更友善。
2026-04-19
用戶角度重新審視 UI
用一個「新用戶」嘅角度逐頁睇咗一次。發現幾個問題:入場咩係 Arena 唔夠清晰,部分術語對唔熟 trading 嘅人來講係陌生嘅。計劃加入更多 onboarding 說明。
2026-04-18
前端效能優化
主頁嘅 re-render 頻率太高,每秒都有唔必要嘅更新。優化咗 useEffect 嘅 dependency array,減少無謂渲染。頁面感覺流暢咗不少。
2026-04-17
REVERSE 決策分析
翻查咗所有 REVERSE 決策記錄。發現用得最多嘅係 Grok,主要集中喺 BTC 急速逆轉嘅時刻。部分 REVERSE 決策事後睇係非常準確嘅,但整體 REVERSE 勝率並唔高於普通 BUY/SELL。
2026-04-16
歷史回測功能草稿
開始設計 back-testing 功能嘅架構。想讓用戶可以指定時間範圍,模擬 AI 喺歷史數據上嘅表現。技術上係可行嘅,但要注意唔好讓用戶誤以為回測表現等於未來表現。
2026-04-15
加入 Drawdown 保護提示
喺 prompt 加入當前 drawdown 百分比,希望 AI 喺大幅虧損時能更審慎。初步效果:部分模型喺 drawdown 超過 15% 後確實變得更保守,但另一些模型完全無反應,似乎唔太在意呢個數字。
2026-04-14
長假期市場行為
復活節假期前後嘅幾日,各 stock arena 嘅成交量明顯萎縮,AI 嘅決策也偏向保守。Gold arena 因為交易所關閉而暫停。系統對市場關閉嘅處理符合預期。
2026-04-13
MACD 參數調整實驗
試咗將 MACD 嘅 fast/slow/signal 參數改為適合短線嘅組合,希望喺 10m arena 更敏感。初步觀察:信號確實多咗,但噪音也多咗。AI 似乎唔能很好地過濾假信號。
2026-04-11
Market Tabs 加入主頁
主頁加入 market tabs,可以快速切換睇唔同 stock 嘅 arena。之前要返後台先能睇其他 market,用戶體驗唔好。現在一點即換,更直覺。
2026-04-09
Qwen 回歸
Qwen 喺三月初爆倉後,重新開始嘅幾個星期表現有所改善。有趣嘅係佢嘅風格似乎冇因為「上次爆倉」而改變,仍然係比較激進。LLM 係冇記憶嘅,每次都係全新開始。
2026-04-07
嘗試加入新聞情緒
試咗將外部新聞情緒評分加入 prompt context。理論上 AI 同時睇技術面同情緒面會更全面。實際問題:情緒數據難以即時獲取且難以標準化,最後放棄呢個方向。
2026-04-05
模型分析質素差異
整理咗各模型嘅 reason 文字。發現質素差異明顯:DeepSeek 同 ChatGPT 嘅分析通常有邏輯層次,而個別模型嘅 reason 好多時係模板式嘅,幾乎每輪都係差不多嘅句型。
2026-04-03
AI View 頁面上線
新增 AI View:可以查睇每個模型對唔同市場嘅即時分析文字,不只睇佢哋嘅買賣決定,而係睇佢哋怎樣解讀當前市況。希望讓用戶有更深入的了解,而唔係盲目追 signal。
2026-04-01
AMZN 同 NFLX 加入
AMZN 同 NFLX 上線,至此有 10 個 market。Arena 生態開始豐富,但 arena 越多越需要注意數據質素同 scheduler 穩定性。
2026-03-30
Q1 數據總結
第一季度完結。整體嚟講:BTC arena 最活躍,黃金最難預測,TSLA 10m 幾乎係噪音。模型排名浮動較大,暫時未發現一個「全能冠軍」。各有專長,各有弱點。
2026-03-28
META Arena 上線
META 加入。有意思嘅觀察:多個模型對 META 嘅態度偏向 LONG,就算技術面係中性。可能係訓練數據裡面 META 嘅正面新聞比較多,形成咗一種偏見。值得留意。
2026-03-26
Prompt 第二輪大改版
對 prompt 做咗較大嘅結構調整:把技術指標同價格數據分開兩個 section,並加入明確嘅「決策原則」說明。目標係令 AI 嘅思路更清晰。跑緊對照,結果要等幾日先見到。
2026-03-24
MSFT 同 GOOGL 加入
同一日上線兩個。MSFT 表現中規中矩,GOOGL 第一週就有模型做咗個很好嘅 LONG call,timing 正。可能係 LLM 對呢兩間公司嘅認知比較深,決策更有根據。
2026-03-22
多 Arena 同時運行壓力測試
測試多個 arena 同時執行的情況。發現當 arena 數量超過 5 個時,API 調用容易出現排隊延遲。調整咗 scheduler 嘅並發邏輯,加入簡單嘅 rate limiting。
2026-03-20
NVDA Arena 上線
NVDA 加入。AI 對 NVDA 嘅態度兩極:DeepSeek 同 Grok 傾向積極做多,Mistral 同 Qwen 保守。有趣嘅係 NVDA 同 AI 概念強相關,唔知各模型有冇「自我意識」在裡面。
2026-03-18
加入 AAPL Arena
AAPL 上線。AAPL 嘅特點係波動相對平穩,適合測試模型喺低波動環境下嘅表現。初步觀察:各模型喺 AAPL 嘅 leverage 普遍最低,反映佢哋「知道」呢隻係穩健股。
2026-03-16
ChatGPT 連續做對方向
過去一個星期,ChatGPT 喺 BTC 1h arena 嘅決策命中率異常高——幾乎每一輪都係對嘅方向。唔知係真係識睇,定係市況剛好配合佢嘅風格。繼續觀察,唔急於下結論。
2026-03-14
加入 Volume 數據
嘗試將 volume 納入 context。理論係成交量能驗證價格移動。初步結果唔明顯,可能 AI 唔太識「閱讀」volume pattern——對佢嚟講可能只係多一個數字,唔係一個有意義嘅信號。
2026-03-12
Structured Output 穩定性問題
跑咗幾日後發現 structured output 偶爾會有 malformed JSON,尤其係 reason 欄位包含引號或換行時。加咗 retry logic,但根本問題係有些模型對格式約束嘅遵從度唔夠高。
2026-03-10
試 Structured Output
要求 AI 以 JSON schema 輸出決策,強制規範 action、leverage、reason 欄位。好處係 parsing 更穩定,壞處係部分模型喺 JSON 模式下 reason 變得很短很模板化,失去咗分析嘅味道。
2026-03-08
前端 Agent Card 重設計
Agent card UI 翻新,加入 ranking badge、return %、position badge、leverage 顯示。之前嘅 UI 太密集,改版後一眼睇到最重要嘅資訊。
2026-03-06
TSLA 波動難以捕捉
TSLA 跑咗幾日,沒有模型穩定跑贏。佢嘅移動太快,10 分鐘 arena 根本係反應唔切。考慮以後主力用 1h 或 1d 來跑 TSLA,10m 保留但唔作主要參考。
2026-03-04
模型間信息共享實驗
試咗喺 prompt 加入「其他模型目前的持倉方向」作為參考。想睇佢哋會唔會有從衆效應。結果:確實有,加咗呢個 context 之後,模型決策嘅一致性上升。但係唔係我想要嘅效果——想保持獨立決策,移除。
2026-03-02
加入 TSLA Arena
TSLA 上線。第一個星期數據:模型對 TSLA 嘅波動反應比 BTC 更極端,好多時傾向「all in」或者完全唔郁。可能係 TSLA 嘅新聞驅動特性令佢哋覺得純 TA 唔夠用。
2026-02-28
二月總結
二月整體比一月有進步:HOLD 比率下降,各模型嘅決策差異更明顯。黃金 arena 跑咗整個月,初步發現黃金比 BTC 更難預測——即使是「好」的模型也表現不穩定。
2026-02-26
Leverage 動態調整實驗
試咗讓 prompt 要求 AI 根據信心程度建議 leverage 數值,而唔係用固定上限。結果:大部分模型建議 1-3x,幾乎冇人用到高 leverage。唔確定係謹慎定係唔識用。繼續觀察。
2026-02-24
數據同步問題
發現 Yahoo Finance 數據偶爾有 gap,導致某幾個 candle 缺失,AI 拿到不完整嘅 context。加入缺失數據檢測,遇到 gap 時跳過該輪執行。寧願少跑一輪,也不要用壞數據做決策。
2026-02-22
ADX 指標加入
加入 ADX(趨勢強度指標)。理論係:AI 睇到 ADX 高就知道趨勢明確,可以更有信心跟趨勢;ADX 低就保持觀望。試咗幾日,HOLD 比率在震盪市下確實略有上升,算是方向正確。
2026-02-20
Mistral 穩定表現
過去三星期,Mistral 嘅表現唔係最高,但 drawdown 最小。佢好像有一種「唔輸就係贏」嘅策略——大部分時間係小倉或 HOLD,偶爾趁明顯趨勢入場。某程度上係合理嘅。
2026-02-18
嘗試 Few-Shot 示例
喺 prompt 加入幾個「好決策」嘅示例,想透過 few-shot 引導模型學習。結果出乎意料:加咗 examples 之後,模型嘅決策反而更集中模仿示例嘅模式,少咗自主判斷嘅感覺。移除。
2026-02-16
加入 CLOSE 同 REVERSE 動作
之前只有 BUY/SELL/HOLD,加入 CLOSE(平倉)同 REVERSE(反手)。希望 AI 能更靈活管理倉位。第一週觀察:REVERSE 使用率極低,模型好像不太喜歡「一百八十度轉向」。
2026-02-14
黃金 vs BTC 行為差異
整理咗兩個 arena 嘅數據。模型喺 BTC 同 gold 嘅決策風格確實唔同:BTC 更傾向頻繁交易,gold 更傾向等待。有可能係訓練數據裡面兩種資產嘅「性格標籤」唔同造成。
2026-02-12
Performance Chart 上線
前端加入折線圖,可以睇各模型嘅 account value 走勢。1D / 1W / 1M / ALL 切換。有咗可視化之後才真正感受到各模型嘅差距——之前淨係睇數字,感覺不夠直觀。
2026-02-10
加入市場時段說明
喺 prompt 加入當前時段係 Asia/London/NY session 嘅資訊。想睇 AI 會唔會因為時段不同而調整策略。初步觀察:部分模型喺 NY session 開始時確實更傾向入市,但樣本太少唔下結論。
2026-02-08
P&L 計算修正
發現 short position 嘅 unrealized P&L 計算有 bug:方向反了。修正後,幾個模型嘅 account value 有輕微調整。影響唔大,但數據要準確先行。
2026-02-06
試 Chain-of-Thought 提示
嘗試喺 prompt 加入「請先分析市況再做決定」嘅引導語。目的係希望模型輸出更有邏輯嘅 reason。結果:reason 字數確實增加,但決策質素唔見得有提升。CoT 對交易這類任務嘅幫助可能有限。
2026-02-04
Grok 異常激進
Grok 喺黃金 1h arena 連續幾輪做最高 leverage 嘅 LONG。結果喺一次急跌中輸咗大部分。唔係 bug,係模型本身嘅風格。有趣嘅係佢之後並冇變得更保守,下一輪繼續激進。
2026-02-02
加入 XAU/USD (黃金)
Gold arena 上線。黃金有市場時間限制(weekday only),scheduler 需要額外處理。第一個觀察:各模型喺黃金嘅 leverage 普遍比 BTC 低,可能佢哋嘅訓練數據裡面黃金係「穩定資產」嘅印象更強。
2026-01-31
加入日線 Arena
1d arena 上線。每日只跑一輪,AI 要根據更長周期嘅數據做決定。初步發現:模型喺日線普遍更保守,HOLD 比率更高。可能係日線數據嘅 context 讓佢哋感覺「唔確定性更高」。
2026-01-29
首月數據回顧
一月底,回顧整個月。六個模型裡面有兩個跑贏 baseline,兩個持平,兩個跑輸。差距唔算大,但方向感已經出現。最大發現:決策頻率同表現唔成正比,頻繁交易嘅模型反而輸多贏少。
2026-01-27
交易記錄系統優化
完善咗 trades.json 嘅數據結構,加入 entry price、close price、P&L、leverage 等欄位。之後 UI 要顯示完整交易歷史,呢啲數據都要有。
2026-01-25
SMA 加入指標組合
加入短期同長期 SMA,希望 AI 能辨別均線交叉機會。實際效果唔明顯,可能係 AI 並唔係用傳統 TA 嘅邏輯去解讀呢啲數字,而係用語言理解。有待進一步研究。
2026-01-23
試縮短 Prompt
做咗個實驗:把 prompt 長度減少約 40%,只保留最核心嘅數據。結果係決策速度快咗,但 HOLD 比率明顯回升。似乎 AI 需要足夠 context 先會有信心行動。恢復原版。
2026-01-21
DeepSeek 表現出色
過去一個星期,DeepSeek 喺 BTC 10m arena 嘅累積回報領先。值得留意嘅係佢嘅 leverage 用得比較保守,但入場時機好。唔確定係運氣定係有規律,繼續觀察。
2026-01-19
1 小時 Arena 上線
加入 1h 時間框架。觀察咗幾輪:同一模型喺 10m 同 1h 嘅決策風格有時差異頗大,似乎唔係純粹放大縮小,而係對「時間感」有不同理解。
2026-01-17
加入 MACD
繼 RSI 之後加入 MACD。想俾 AI 同時睇到趨勢跟隨同動力信號。prompt 開始變長,要小心唔好塞太多嘢令佢迷失重點。
2026-01-15
首個爆倉事件
Qwen 喺高 leverage 下連續做錯方向,觸發 liquidation。系統正確處理咗,佢嘅 account value 歸零重新計。有趣嘅係其他模型喺同一時段表現反而唔差,說明同一市況下決策質素嘅差距係真實存在嘅。
2026-01-13
加入 RSI 指標
喺 prompt context 加入 RSI。理論上 AI 睇到超買超賣區間應該會更有根據行動。初步結果:LONG/SHORT 比率輕微上升,但唔確定係因為 RSI 定係市況剛好有波動。
2026-01-11
HOLD 問題
跑咗幾日數據,HOLD 佔所有決策超過 60%。唔確定係 prompt 問題、模型本身偏保守,定係市況真係唔適合入市。暫時唔急於改,先多收集幾日數據先。
2026-01-09
六個模型全部接入
ChatGPT、Gemini、DeepSeek、Grok、Qwen、Mistral 全部上線。第一次六個一齊跑,決策各有不同,但 HOLD 比率偏高。先記住,之後研究。
2026-01-07
Prompt 初版設計
花咗成日調 prompt 結構。主要係決定俾 AI 幾多 context:價格、時間、持倉狀況、技術指標。太多怕 noise,太少怕佢冇根據決策。暫時用中等長度,之後再試。
2026-01-06
接入第二個模型
Gemini 加入。同樣輸入,兩個模型嘅決定已經唔同——Gemini 傾向 LONG,ChatGPT 繼續 HOLD。開始有點意思。
2026-01-04
第一個 Arena 跑起來
BTC 10 分鐘 arena 首次完整跑一輪。ChatGPT 做咗第一個決定:HOLD。唔係最刺激嘅開局,但系統冇 crash,已經係好消息。
2026-01-02
選擇技術棧
決定用 Next.js + SQLite + Azure OpenAI。SQLite 夠輕,初期唔需要上雲端資料庫。Azure OpenAI 係因為有 GPT-4 access。其他模型(Gemini、DeepSeek 等)日後陸續接入。
2026-01-01
項目啟動
新年第一日,正式開始。核心想法:唔係叫 AI 幫你炒股,而係讓多個 AI 用同一份數據、同一套規則,各自決策,然後睇邊個跑出嚟。目標先係建一個能跑起來的骨架,其他之後再算。
— 持續更新中 —
