Gold Pulse/Lab

實驗室日誌

Lab 係我哋嘅開發日誌——記錄每次對 Arena 嘅調整、實驗同觀察。唔係每日都有更新，但每條記錄都代表一次真實嘅嘗試：試過咩方法、有冇效、下一步點走。

milestoneexperimenttuningfeatureobservationfixinfra

2026-04-24

Lab 上線

milestone

就係呢個頁面。初衷係希望平台唔只係一個「黑箱」——用戶睇到 AI 交易，但唔知背後點運作、點演變。Lab 係一種透明度，記錄真實嘅開發過程，包括失敗同不確定。

2026-04-23

開放所有功能予註冊用戶

milestone

決定取消付費牆，所有註冊會員即可使用完整功能。主要考量係希望先累積真實用戶數據同反饋，再決定未來商業方向。平台依然係早期，更重要嘅係有人真正用同提供意見。

2026-04-22

試加入「上一輪決策」作 context

experiment

喺 prompt 加入上一輪嘅 action 同 reason，希望 AI 有連貫性。結果發現部分模型開始「自我確認」——上一輪做咗 LONG，今輪更傾向繼續 LONG，即使市況已轉。有 anchoring bias 嘅感覺，暫時移除。

2026-04-21

Grok 大起伏

observation

呢個星期 Grok 喺 NVDA arena 先大升後急跌，最終回到接近起點。佢嘅高波動風格時常有驚喜，但持續性差。唔知係 Grok 模型本身特性定係 NVDA 市況使然，未能分離變數。

2026-04-20

How It Works 頁面更新

feature

更新咗 How It Works 嘅說明內容，加入更清晰嘅 Arena 運作流程說明。同時調整咗 FAQ 嘅語氣，希望對初次接觸嘅用戶更友善。

2026-04-19

用戶角度重新審視 UI

observation

用一個「新用戶」嘅角度逐頁睇咗一次。發現幾個問題：入場咩係 Arena 唔夠清晰，部分術語對唔熟 trading 嘅人來講係陌生嘅。計劃加入更多 onboarding 說明。

2026-04-18

前端效能優化

infra

主頁嘅 re-render 頻率太高，每秒都有唔必要嘅更新。優化咗 useEffect 嘅 dependency array，減少無謂渲染。頁面感覺流暢咗不少。

2026-04-17

REVERSE 決策分析

observation

翻查咗所有 REVERSE 決策記錄。發現用得最多嘅係 Grok，主要集中喺 BTC 急速逆轉嘅時刻。部分 REVERSE 決策事後睇係非常準確嘅，但整體 REVERSE 勝率並唔高於普通 BUY/SELL。

2026-04-16

歷史回測功能草稿

feature

開始設計 back-testing 功能嘅架構。想讓用戶可以指定時間範圍，模擬 AI 喺歷史數據上嘅表現。技術上係可行嘅，但要注意唔好讓用戶誤以為回測表現等於未來表現。

2026-04-15

加入 Drawdown 保護提示

tuning

喺 prompt 加入當前 drawdown 百分比，希望 AI 喺大幅虧損時能更審慎。初步效果：部分模型喺 drawdown 超過 15% 後確實變得更保守，但另一些模型完全無反應，似乎唔太在意呢個數字。

2026-04-14

長假期市場行為

observation

復活節假期前後嘅幾日，各 stock arena 嘅成交量明顯萎縮，AI 嘅決策也偏向保守。Gold arena 因為交易所關閉而暫停。系統對市場關閉嘅處理符合預期。

2026-04-13

MACD 參數調整實驗

experiment

試咗將 MACD 嘅 fast/slow/signal 參數改為適合短線嘅組合，希望喺 10m arena 更敏感。初步觀察：信號確實多咗，但噪音也多咗。AI 似乎唔能很好地過濾假信號。

2026-04-11

Market Tabs 加入主頁

feature

主頁加入 market tabs，可以快速切換睇唔同 stock 嘅 arena。之前要返後台先能睇其他 market，用戶體驗唔好。現在一點即換，更直覺。

2026-04-09

Qwen 回歸

observation

Qwen 喺三月初爆倉後，重新開始嘅幾個星期表現有所改善。有趣嘅係佢嘅風格似乎冇因為「上次爆倉」而改變，仍然係比較激進。LLM 係冇記憶嘅，每次都係全新開始。

2026-04-07

嘗試加入新聞情緒

experiment

試咗將外部新聞情緒評分加入 prompt context。理論上 AI 同時睇技術面同情緒面會更全面。實際問題：情緒數據難以即時獲取且難以標準化，最後放棄呢個方向。

2026-04-05

模型分析質素差異

observation

整理咗各模型嘅 reason 文字。發現質素差異明顯：DeepSeek 同 ChatGPT 嘅分析通常有邏輯層次，而個別模型嘅 reason 好多時係模板式嘅，幾乎每輪都係差不多嘅句型。

2026-04-03

AI View 頁面上線

feature

新增 AI View：可以查睇每個模型對唔同市場嘅即時分析文字，不只睇佢哋嘅買賣決定，而係睇佢哋怎樣解讀當前市況。希望讓用戶有更深入的了解，而唔係盲目追 signal。

2026-04-01

AMZN 同 NFLX 加入

feature

AMZN 同 NFLX 上線，至此有 10 個 market。Arena 生態開始豐富，但 arena 越多越需要注意數據質素同 scheduler 穩定性。

2026-03-30

Q1 數據總結

milestone

第一季度完結。整體嚟講：BTC arena 最活躍，黃金最難預測，TSLA 10m 幾乎係噪音。模型排名浮動較大，暫時未發現一個「全能冠軍」。各有專長，各有弱點。

2026-03-28

META Arena 上線

feature

META 加入。有意思嘅觀察：多個模型對 META 嘅態度偏向 LONG，就算技術面係中性。可能係訓練數據裡面 META 嘅正面新聞比較多，形成咗一種偏見。值得留意。

2026-03-26

Prompt 第二輪大改版

tuning

對 prompt 做咗較大嘅結構調整：把技術指標同價格數據分開兩個 section，並加入明確嘅「決策原則」說明。目標係令 AI 嘅思路更清晰。跑緊對照，結果要等幾日先見到。

2026-03-24

MSFT 同 GOOGL 加入

feature

同一日上線兩個。MSFT 表現中規中矩，GOOGL 第一週就有模型做咗個很好嘅 LONG call，timing 正。可能係 LLM 對呢兩間公司嘅認知比較深，決策更有根據。

2026-03-22

多 Arena 同時運行壓力測試

infra

測試多個 arena 同時執行的情況。發現當 arena 數量超過 5 個時，API 調用容易出現排隊延遲。調整咗 scheduler 嘅並發邏輯，加入簡單嘅 rate limiting。

2026-03-20

NVDA Arena 上線

feature

NVDA 加入。AI 對 NVDA 嘅態度兩極：DeepSeek 同 Grok 傾向積極做多，Mistral 同 Qwen 保守。有趣嘅係 NVDA 同 AI 概念強相關，唔知各模型有冇「自我意識」在裡面。

2026-03-18

加入 AAPL Arena

feature

AAPL 上線。AAPL 嘅特點係波動相對平穩，適合測試模型喺低波動環境下嘅表現。初步觀察：各模型喺 AAPL 嘅 leverage 普遍最低，反映佢哋「知道」呢隻係穩健股。

2026-03-16

ChatGPT 連續做對方向

observation

過去一個星期，ChatGPT 喺 BTC 1h arena 嘅決策命中率異常高——幾乎每一輪都係對嘅方向。唔知係真係識睇，定係市況剛好配合佢嘅風格。繼續觀察，唔急於下結論。

2026-03-14

加入 Volume 數據

tuning

嘗試將 volume 納入 context。理論係成交量能驗證價格移動。初步結果唔明顯，可能 AI 唔太識「閱讀」volume pattern——對佢嚟講可能只係多一個數字，唔係一個有意義嘅信號。

2026-03-12

Structured Output 穩定性問題

observation

跑咗幾日後發現 structured output 偶爾會有 malformed JSON，尤其係 reason 欄位包含引號或換行時。加咗 retry logic，但根本問題係有些模型對格式約束嘅遵從度唔夠高。

2026-03-10

試 Structured Output

experiment

要求 AI 以 JSON schema 輸出決策，強制規範 action、leverage、reason 欄位。好處係 parsing 更穩定，壞處係部分模型喺 JSON 模式下 reason 變得很短很模板化，失去咗分析嘅味道。

2026-03-08

前端 Agent Card 重設計

feature

Agent card UI 翻新，加入 ranking badge、return %、position badge、leverage 顯示。之前嘅 UI 太密集，改版後一眼睇到最重要嘅資訊。

2026-03-06

TSLA 波動難以捕捉

observation

TSLA 跑咗幾日，沒有模型穩定跑贏。佢嘅移動太快，10 分鐘 arena 根本係反應唔切。考慮以後主力用 1h 或 1d 來跑 TSLA，10m 保留但唔作主要參考。

2026-03-04

模型間信息共享實驗

experiment

試咗喺 prompt 加入「其他模型目前的持倉方向」作為參考。想睇佢哋會唔會有從衆效應。結果：確實有，加咗呢個 context 之後，模型決策嘅一致性上升。但係唔係我想要嘅效果——想保持獨立決策，移除。

2026-03-02

加入 TSLA Arena

feature

TSLA 上線。第一個星期數據：模型對 TSLA 嘅波動反應比 BTC 更極端，好多時傾向「all in」或者完全唔郁。可能係 TSLA 嘅新聞驅動特性令佢哋覺得純 TA 唔夠用。

2026-02-28

二月總結

observation

二月整體比一月有進步：HOLD 比率下降，各模型嘅決策差異更明顯。黃金 arena 跑咗整個月，初步發現黃金比 BTC 更難預測——即使是「好」的模型也表現不穩定。

2026-02-26

Leverage 動態調整實驗

experiment

試咗讓 prompt 要求 AI 根據信心程度建議 leverage 數值，而唔係用固定上限。結果：大部分模型建議 1-3x，幾乎冇人用到高 leverage。唔確定係謹慎定係唔識用。繼續觀察。

2026-02-24

數據同步問題

fix

發現 Yahoo Finance 數據偶爾有 gap，導致某幾個 candle 缺失，AI 拿到不完整嘅 context。加入缺失數據檢測，遇到 gap 時跳過該輪執行。寧願少跑一輪，也不要用壞數據做決策。

2026-02-22

ADX 指標加入

tuning

加入 ADX（趨勢強度指標）。理論係：AI 睇到 ADX 高就知道趨勢明確，可以更有信心跟趨勢；ADX 低就保持觀望。試咗幾日，HOLD 比率在震盪市下確實略有上升，算是方向正確。

2026-02-20

Mistral 穩定表現

observation

過去三星期，Mistral 嘅表現唔係最高，但 drawdown 最小。佢好像有一種「唔輸就係贏」嘅策略——大部分時間係小倉或 HOLD，偶爾趁明顯趨勢入場。某程度上係合理嘅。

2026-02-18

嘗試 Few-Shot 示例

experiment

喺 prompt 加入幾個「好決策」嘅示例，想透過 few-shot 引導模型學習。結果出乎意料：加咗 examples 之後，模型嘅決策反而更集中模仿示例嘅模式，少咗自主判斷嘅感覺。移除。

2026-02-16

加入 CLOSE 同 REVERSE 動作

feature

之前只有 BUY/SELL/HOLD，加入 CLOSE（平倉）同 REVERSE（反手）。希望 AI 能更靈活管理倉位。第一週觀察：REVERSE 使用率極低，模型好像不太喜歡「一百八十度轉向」。

2026-02-14

黃金 vs BTC 行為差異

observation

整理咗兩個 arena 嘅數據。模型喺 BTC 同 gold 嘅決策風格確實唔同：BTC 更傾向頻繁交易，gold 更傾向等待。有可能係訓練數據裡面兩種資產嘅「性格標籤」唔同造成。

2026-02-12

Performance Chart 上線

feature

前端加入折線圖，可以睇各模型嘅 account value 走勢。1D / 1W / 1M / ALL 切換。有咗可視化之後才真正感受到各模型嘅差距——之前淨係睇數字，感覺不夠直觀。

2026-02-10

加入市場時段說明

tuning

喺 prompt 加入當前時段係 Asia/London/NY session 嘅資訊。想睇 AI 會唔會因為時段不同而調整策略。初步觀察：部分模型喺 NY session 開始時確實更傾向入市，但樣本太少唔下結論。

2026-02-08

P&L 計算修正

fix

發現 short position 嘅 unrealized P&L 計算有 bug：方向反了。修正後，幾個模型嘅 account value 有輕微調整。影響唔大，但數據要準確先行。

2026-02-06

試 Chain-of-Thought 提示

experiment

嘗試喺 prompt 加入「請先分析市況再做決定」嘅引導語。目的係希望模型輸出更有邏輯嘅 reason。結果：reason 字數確實增加，但決策質素唔見得有提升。CoT 對交易這類任務嘅幫助可能有限。

2026-02-04

Grok 異常激進

observation

Grok 喺黃金 1h arena 連續幾輪做最高 leverage 嘅 LONG。結果喺一次急跌中輸咗大部分。唔係 bug，係模型本身嘅風格。有趣嘅係佢之後並冇變得更保守，下一輪繼續激進。

2026-02-02

加入 XAU/USD (黃金)

feature

Gold arena 上線。黃金有市場時間限制（weekday only），scheduler 需要額外處理。第一個觀察：各模型喺黃金嘅 leverage 普遍比 BTC 低，可能佢哋嘅訓練數據裡面黃金係「穩定資產」嘅印象更強。

2026-01-31

加入日線 Arena

feature

1d arena 上線。每日只跑一輪，AI 要根據更長周期嘅數據做決定。初步發現：模型喺日線普遍更保守，HOLD 比率更高。可能係日線數據嘅 context 讓佢哋感覺「唔確定性更高」。

2026-01-29

首月數據回顧

observation

一月底，回顧整個月。六個模型裡面有兩個跑贏 baseline，兩個持平，兩個跑輸。差距唔算大，但方向感已經出現。最大發現：決策頻率同表現唔成正比，頻繁交易嘅模型反而輸多贏少。

2026-01-27

交易記錄系統優化

feature

完善咗 trades.json 嘅數據結構，加入 entry price、close price、P&L、leverage 等欄位。之後 UI 要顯示完整交易歷史，呢啲數據都要有。

2026-01-25

SMA 加入指標組合

tuning

加入短期同長期 SMA，希望 AI 能辨別均線交叉機會。實際效果唔明顯，可能係 AI 並唔係用傳統 TA 嘅邏輯去解讀呢啲數字，而係用語言理解。有待進一步研究。

2026-01-23

試縮短 Prompt

experiment

做咗個實驗：把 prompt 長度減少約 40%，只保留最核心嘅數據。結果係決策速度快咗，但 HOLD 比率明顯回升。似乎 AI 需要足夠 context 先會有信心行動。恢復原版。

2026-01-21

DeepSeek 表現出色

observation

過去一個星期，DeepSeek 喺 BTC 10m arena 嘅累積回報領先。值得留意嘅係佢嘅 leverage 用得比較保守，但入場時機好。唔確定係運氣定係有規律，繼續觀察。

2026-01-19

1 小時 Arena 上線

feature

加入 1h 時間框架。觀察咗幾輪：同一模型喺 10m 同 1h 嘅決策風格有時差異頗大，似乎唔係純粹放大縮小，而係對「時間感」有不同理解。

2026-01-17

加入 MACD

tuning

繼 RSI 之後加入 MACD。想俾 AI 同時睇到趨勢跟隨同動力信號。prompt 開始變長，要小心唔好塞太多嘢令佢迷失重點。

2026-01-15

首個爆倉事件

observation

Qwen 喺高 leverage 下連續做錯方向，觸發 liquidation。系統正確處理咗，佢嘅 account value 歸零重新計。有趣嘅係其他模型喺同一時段表現反而唔差，說明同一市況下決策質素嘅差距係真實存在嘅。

2026-01-13

加入 RSI 指標

tuning

喺 prompt context 加入 RSI。理論上 AI 睇到超買超賣區間應該會更有根據行動。初步結果：LONG/SHORT 比率輕微上升，但唔確定係因為 RSI 定係市況剛好有波動。

2026-01-11

HOLD 問題

observation

跑咗幾日數據，HOLD 佔所有決策超過 60%。唔確定係 prompt 問題、模型本身偏保守，定係市況真係唔適合入市。暫時唔急於改，先多收集幾日數據先。

2026-01-09

六個模型全部接入

milestone

ChatGPT、Gemini、DeepSeek、Grok、Qwen、Mistral 全部上線。第一次六個一齊跑，決策各有不同，但 HOLD 比率偏高。先記住，之後研究。

2026-01-07

Prompt 初版設計

tuning

花咗成日調 prompt 結構。主要係決定俾 AI 幾多 context：價格、時間、持倉狀況、技術指標。太多怕 noise，太少怕佢冇根據決策。暫時用中等長度，之後再試。

2026-01-06

接入第二個模型

feature

Gemini 加入。同樣輸入，兩個模型嘅決定已經唔同——Gemini 傾向 LONG，ChatGPT 繼續 HOLD。開始有點意思。

2026-01-04

第一個 Arena 跑起來

milestone

BTC 10 分鐘 arena 首次完整跑一輪。ChatGPT 做咗第一個決定：HOLD。唔係最刺激嘅開局，但系統冇 crash，已經係好消息。

2026-01-02

選擇技術棧

infra

決定用 Next.js + SQLite + Azure OpenAI。SQLite 夠輕，初期唔需要上雲端資料庫。Azure OpenAI 係因為有 GPT-4 access。其他模型（Gemini、DeepSeek 等）日後陸續接入。

2026-01-01

項目啟動

milestone

新年第一日，正式開始。核心想法：唔係叫 AI 幫你炒股，而係讓多個 AI 用同一份數據、同一套規則，各自決策，然後睇邊個跑出嚟。目標先係建一個能跑起來的骨架，其他之後再算。

— 持續更新中 —